如何在hadoop中获得多路输出

y4ekin9u  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(501)

我是hadoop新手,现在必须处理一个输入文件。我想处理每一行,输出应该是每一行一个文件。
我在网上冲浪,找到了multipleoutputformat,并生成filenameforkeyvalue。
但是大多数人是用jobconf类编写的。因为我使用的是hadoop0.20.1,所以我认为作业类是发生的。我不知道如何使用job类按键生成多个输出文件。
有人能帮我吗?

gojuced7

gojuced71#

eclipse插件主要用于提交和监视作业,以及与hdfs交互,以对抗真实集群或“psuedo”集群。
如果您是在本地模式下运行的,那么我认为插件不会给您带来任何好处—因为您的作业将在单个jvm中运行。记住这一点,我会说在eclipse项目的类路径中包含最新的1.xHadoop核心。
另一边 MultipleOutputFormat 尚未移植到新的mapreduce包(1.1.2或2.0.4-alpha中都没有),因此您需要自己移植它或找到其他方法(也许 MultipleOutputs -javadoc页面在使用multipleoutputs时有一些用法)

相关问题