我是mapreduce程序的新手。我正在遵循tom white hadoop权威指南。我正在做气象数据程序,我想在其中找到每年的最高温度。我有4个1901190219041905年的档案,每年一个(我每年只做一个档案)。如何在mapreduceMap程序中设置四个输入文件。hadoop安装在伪分布式模式下。请帮帮我。
blmhpbnm1#
hadoop从输入目录中选取所有文件。所以如果你把所有的文件放到输入目录,所有的文件都会被挑选出来。您也可以像这样在驱动程序类中设置多个输入路径。fileinputformat.setinputpaths(作业,commaseparatedpaths);
waxmsbnn2#
如果您正在使用 hadoop streaming ,请尝试以下操作:
hadoop streaming
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ -input myInputDirs \ -output myOutputDir \ -mapper mapper \ -reducer reducer
把你的文件放到输入目录会解决你的问题。完整文档
2条答案
按热度按时间blmhpbnm1#
hadoop从输入目录中选取所有文件。所以如果你把所有的文件放到输入目录,所有的文件都会被挑选出来。您也可以像这样在驱动程序类中设置多个输入路径。
fileinputformat.setinputpaths(作业,commaseparatedpaths);
waxmsbnn2#
如果您正在使用
hadoop streaming
,请尝试以下操作:把你的文件放到输入目录会解决你的问题。
完整文档