我知道我可以通过作业和配置给我的Map器一些全局值。但是如何使用hadoop流媒体(在我的例子中是python)来做到这一点呢?正确的方法是什么?
odopli941#
根据文档,您可以指定命令行选项( -cmdenv name=value )要在每个分布式计算机上设置环境变量,然后可以在Map器/还原器中使用这些变量,请执行以下操作:
-cmdenv name=value
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ -input input.txt \ -output output.txt \ -mapper mapper.py \ -reducer reducer.py \ -file mapper.py \ -file reducer.py \ -cmdenv MY_PARAM=thing_I_need
1条答案
按热度按时间odopli941#
根据文档,您可以指定命令行选项(
-cmdenv name=value
)要在每个分布式计算机上设置环境变量,然后可以在Map器/还原器中使用这些变量,请执行以下操作: