每30秒将创建几个总共包含数百万行(约600万行)的csv文件。csv基本上有时间戳,id1,id2,值。。。。我想在30秒内构建一个类似于timestamp/id1/id2/的文件夹结构(这意味着我将不得不将这600万行洗牌,并将具有相同ID的行写入一个文件)我尝试使用spark来整理记录,但是将这些记录写入hdfs需要相当长的时间。
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!