hadoop流在r中失败

uqjltbpv 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(407)

我正在运行rhadoop的示例脚本来测试系统，并使用以下命令。

library(rmr2)
library(rhdfs)
Sys.setenv(HADOOP_HOME="/usr/bin/hadoop")
Sys.setenv(HADOOP_CMD="/usr/bin/hadoop")
Sys.setenv(HADOOP_STREAMING="/opt/cloudera/parcels/CDH-4.3.0-1.cdh4.3.0.p0.22/lib/hadoop-mapreduce/hadoop-streaming.jar")
hdfs.init()
ints = to.dfs(1:100)
calc = mapreduce(input = ints, map = function(k, v) cbind(v, 2*v))

但它给了我一个如下的错误。

>Caused by: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.streaming.AutoInputFormat not found
        at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:1587)
        at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:1611)
13/08/21 18:30:25 INFO mapred.JobClient: Job complete: job_201308191923_0307
13/08/21 18:30:25 INFO mapred.JobClient: Counters: 7
13/08/21 18:30:25 INFO mapred.JobClient:   Job Counters
13/08/21 18:30:25 INFO mapred.JobClient:     Failed map tasks=1
13/08/21 18:30:25 INFO mapred.JobClient:     Launched map tasks=8
13/08/21 18:30:25 INFO mapred.JobClient:     Data-local map tasks=8
13/08/21 18:30:25 INFO mapred.JobClient:     Total time spent by all maps in occupied slots (ms)=46647
13/08/21 18:30:25 INFO mapred.JobClient:     Total time spent by all reduces in occupied slots (ms)=0
13/08/21 18:30:25 INFO mapred.JobClient:     Total time spent by all maps waiting after reserving slots (ms)=0
13/08/21 18:30:25 INFO mapred.JobClient:     Total time spent by all reduces waiting after reserving slots (ms)=0
13/08/21 18:30:25 ERROR streaming.StreamJob: Job not Successful!
Streaming Command Failed!
Error in mr(map = map, reduce = reduce, combine = combine, in.folder = if (is.list(input)) { :
  hadoop streaming failed with error code 1

有什么线索说明这里可能出了什么问题吗

hadoop r hadoop-streaming rhadoop

来源：https://stackoverflow.com/questions/18386972/hadoop-streaming-fails-in-r

1条答案

按热度按时间

vohkndzv1#

hadoop\u home应该是一个目录。hadoop\u cmd应该是一个程序。既然它们被设置为相同的东西，那就错了。但是hadoop\u cmd应该取代hadoop\u home，所以这不应该是根本原因。所以剩下的唯一选择就是调试。如果您已经阅读了调试指南，那么您可能已经找到了stderr，并且已经知道了很多。只有控制台输出，就没有什么可处理的了。

赞(0）回复(0）举报 2021-06-03

我来回答

hadoop流在r中失败

1条答案

相关问题

热门标签

最新问答