mahout随机林示例,未识别数据的命令行参数

djmepvbi  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(379)

命令:

hadoop jar /opt/cloudera/parcels/CDH-5.0.0-1.cdh5.0.0.p0.47/lib/mahout/mahout-examples-0.8-cdh5.0.0-job.jar org.apache.mahout.classifier.df.mapreduce.BuildForest –d advert-train.csv –ds advert-info –t 100 -o advert-model

生成错误:

org.apache.commons.cli2.OptionException: Unexpected –d while processing Options

这似乎不可能。我查看了源代码,-d是必需的选项。
hadoop版本
退货

Hadoop 2.3.0-cdh5.0.0

advert-train.csv和advert info文件都存在于我的默认hdfs目录/users/cloudera中

c8ib6hqw

c8ib6hqw1#

有关在mahout中运行随机林的详细说明,请参见:https://mahout.apache.org/users/classification/partial-implementation.html
我能够在clouderacdh5.0中毫无问题地运行这个示例。我认为这个问题可能是由于配置或者您需要指定其他参数。我刚刚使用cloudera中的mahout命令来运行这个示例。在您的情况下,命令是:

mahout org.apache.mahout.classifier.df.mapreduce.BuildForest 
-Dmapred.max.split.size=1874231 –d advert-train.csv –ds advert-info 
-sl 5 -p –t 100 -o advert-model

在哪儿,
-dmapred.max.split.size应该指定hadoop每个分区的最大大小,大约是数据集大小的1/10
-sl用于指定随机选择的变量数
-p告诉mahout使用部分实现
其余的变量应该没问题。

相关问题