在hdfs中跨多个文件构造数百万条记录

aiazj4mn 于 2021-06-03 发布在 Hadoop

关注(0)|答案(0)|浏览(174)

每30秒将创建几个总共包含数百万行（约600万行）的csv文件。csv基本上有时间戳，id1，id2，值。。。。
我想在30秒内构建一个类似于timestamp/id1/id2/的文件夹结构(这意味着我将不得不将这600万行洗牌，并将具有相同ID的行写入一个文件）
我尝试使用spark来整理记录，但是将这些记录写入hdfs需要相当长的时间。

hadoop hdfs apache-spark bigdata Analytics

来源：https://stackoverflow.com/questions/33538595/structuring-several-million-records-across-multiple-files-in-hdfs

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

在hdfs中跨多个文件构造数百万条记录

暂无答案！

相关问题

热门标签

最新问答