无法运行hadoop流作业:缺少必需的选项:输入、输出

zfycwa2u  于 2021-06-03  发布在  Hadoop
关注(0)|答案(3)|浏览(450)

我正在尝试在DSE3.1分析服务器群集上运行流作业。我用cassandra cfs输入。但它抱怨输入和输出参数,但它们是设置的(我设置它只是因为抱怨):

dse hadoop jar $HADOOP_HOME/lib/hadoop-streaming-1.0.4.8.jar \
-D cassandra.input.keyspace="tmp_ks" \
-D cassandra.input.partitioner.class="MurMur3Partitioner" \
-D cassandra.input.columnfamily="tmp_cf" \
-D cassandra.consistencylevel.read="ONE" \
-D cassandra.input.widerows=true \
-D cassandra.input.thrift.address=10.0.0.1
-inputformat org.apache.cassandra.hadoop.ColumnFamilyInputFormat \
-outputformat org.apache.hadoop.mapred.lib.NullOutputFormat \
-input /tmp_ks/tmp_cf \
-output /dev/null \
-mapper mymapper.py \
-reducer myreducer.py

获取“error streaming.streamjob:缺少必需的选项:input,output”。我尝试了不同的输入和输出,不同的输出格式,但得到了相同的错误。
我做错了什么?

xkftehaa

xkftehaa1#

我注意到命令的这一部分没有尾随反斜杠:

...
-D cassandra.input.thrift.address=10.0.0.1
...

也许这会把后面的台词搞砸?

qxsslcnc

qxsslcnc2#

我也注意到你的命令有错误:

...    
-D cassandra.input.partitioner.class="MurMur3Partitioner" \
...

班级应该是“第三部分”

e4yzc0pl

e4yzc0pl3#

输入应该是hdfs上的现有路径,而输出应该是hdfs上不存在的路径

相关问题