在hdfs中合并两个Parquet文件

huwehgph  于 2021-06-01  发布在  Hadoop
关注(0)|答案(2)|浏览(739)

我有一些文件在里面 HDFSparquet 格式。我想把这些文件合并成一个大文件。
我该怎么做?
我已经做了一些事情如下,但文字文件。

hadoop fs -cat /input_hdfs_dir/* | hadoop fs -put - /output_hdfs_file

但无法达到预期的效果 parquet 格式。
我怎样才能达到我的要求?

lvjbypge

lvjbypge1#

同样的工具可以用来合并hadoop中的多个文件,只需使用$hadoopjar而不是$java-jar即可。/parquet tools

smtd7mpg

smtd7mpg2#

不可能合并 parquet 使用hdfs命令的文件。
有一个Parquet工具库,可以帮助您实现 mergingparquet 文件夹。命令应该是

java jar ./parquet-tools-<VERSION>.jar <command> <input-directory> <output-file>

相关问题