我有一些文件在里面 HDFS 在 parquet 格式。我想把这些文件合并成一个大文件。我该怎么做?我已经做了一些事情如下,但文字文件。
HDFS
parquet
hadoop fs -cat /input_hdfs_dir/* | hadoop fs -put - /output_hdfs_file
但无法达到预期的效果 parquet 格式。我怎样才能达到我的要求?
lvjbypge1#
同样的工具可以用来合并hadoop中的多个文件,只需使用$hadoopjar而不是$java-jar即可。/parquet tools
smtd7mpg2#
不可能合并 parquet 使用hdfs命令的文件。有一个Parquet工具库,可以帮助您实现 merging 的 parquet 文件夹。命令应该是
merging
java jar ./parquet-tools-<VERSION>.jar <command> <input-directory> <output-file>
2条答案
按热度按时间lvjbypge1#
同样的工具可以用来合并hadoop中的多个文件,只需使用$hadoopjar而不是$java-jar即可。/parquet tools
smtd7mpg2#
不可能合并
parquet
使用hdfs命令的文件。有一个Parquet工具库,可以帮助您实现
merging
的parquet
文件夹。命令应该是