分离头文件和合并部分文件

uurity8g  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(222)

我有一个巨大的Dataframe,保存在hdfs中,在scala中options header=“true”
这将创建多个零件文件,每个文件都有标题,当我使用 hadoop fs -getmerge ,它将创建一个包含多个标头的文件。我可以使用awk删除这些头文件,但这不是好的做法。
例如,有没有一种方法可以将头文件写入一个单独的文件 _header.csv 然后将不带标头的Dataframe写入同一文件夹,然后使用 hadoop fs -getmerge ?
我想用 sc.parallelize(Seq(<dataframe>.columns.mkString(“\t"))).saveAsTextFile(<filename>) 但这也会创建一个零件文件,在我将所有文件合并到一起之前,它需要移动到另一个文件夹

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题