如何在hadoop流媒体中指定一个python脚本作为opt解析器(并接受多个参数)作为Map器??
例如,
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper myPythonScript.py \
-reducer /bin/wc \
-file myPythonScript.py
这是使用hadoop流执行python脚本的常规命令。如何说明mypythonscript.py是否有opt解析器。例如。
python myPythonscript.py -g --inputfile=Inputfilename --output=Ouputfilename -r
如何将其指定为Map器??
1条答案
按热度按时间kuarbcqp1#