使用oozie组合输出文件部分

7hiiyaii  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(355)

是否可以使用oozie将mapreduce作业的输出连接到单个文件中?假设我有输出。。。

part-r-00000
part-r-00001
part-r-00002

我只想。。。

output.csv

我知道我可以把它们作为一个文件 hadoop fs -getmerge ,但我很好奇工作流应用程序和hdfs是否可以。

alen0pnh

alen0pnh1#

我可以想到两个简单的选择:
修改产生此输出的作业以使用单个减速机
使用identity mapper、identity reducer和single reducer运行map reduce操作

c2e8gylq

c2e8gylq2#

您可以使用pig或java来调用
http://hadoop.apache.org/docs/current/api/org/apache/hadoop/fs/filesystem.html#concat-org.apache.hadoop.fs.path-org.apache.hadoop.fs。path:a-
或者把它添加到oozie的fs操作中。
或者,使用webhdfs:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/webhdfs.html#concat_files .
您可以将curl调用 Package 在shell或ssh操作中。

相关问题