我有一个巨大的Dataframe,保存在hdfs中,在scala中options header=“true”
这将创建多个零件文件,每个文件都有标题,当我使用 hadoop fs -getmerge
,它将创建一个包含多个标头的文件。我可以使用awk删除这些头文件,但这不是好的做法。
例如,有没有一种方法可以将头文件写入一个单独的文件 _header.csv
然后将不带标头的Dataframe写入同一文件夹,然后使用 hadoop fs -getmerge
?
我想用 sc.parallelize(Seq(<dataframe>.columns.mkString(“\t"))).saveAsTextFile(<filename>)
但这也会创建一个零件文件,在我将所有文件合并到一起之前,它需要移动到另一个文件夹
暂无答案!
目前还没有任何答案,快来回答吧!