是否可以使用oozie将mapreduce作业的输出连接到单个文件中?假设我有输出。。。
part-r-00000 part-r-00001 part-r-00002
我只想。。。
output.csv
我知道我可以把它们作为一个文件 hadoop fs -getmerge ,但我很好奇工作流应用程序和hdfs是否可以。
hadoop fs -getmerge
alen0pnh1#
我可以想到两个简单的选择:修改产生此输出的作业以使用单个减速机使用identity mapper、identity reducer和single reducer运行map reduce操作
c2e8gylq2#
您可以使用pig或java来调用http://hadoop.apache.org/docs/current/api/org/apache/hadoop/fs/filesystem.html#concat-org.apache.hadoop.fs.path-org.apache.hadoop.fs。path:a-或者把它添加到oozie的fs操作中。或者,使用webhdfs:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/webhdfs.html#concat_files .您可以将curl调用 Package 在shell或ssh操作中。
2条答案
按热度按时间alen0pnh1#
我可以想到两个简单的选择:
修改产生此输出的作业以使用单个减速机
使用identity mapper、identity reducer和single reducer运行map reduce操作
c2e8gylq2#
您可以使用pig或java来调用
http://hadoop.apache.org/docs/current/api/org/apache/hadoop/fs/filesystem.html#concat-org.apache.hadoop.fs.path-org.apache.hadoop.fs。path:a-
或者把它添加到oozie的fs操作中。
或者,使用webhdfs:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/webhdfs.html#concat_files .
您可以将curl调用 Package 在shell或ssh操作中。