带有csv文件rmr2的mapreduce-hdfs中的断列失败

r8uurelv  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(261)

我在使用rmr2执行mapreduce时遇到了hdfs中csv数据集的问题。
对于1个文件,mapreduce工作正常,未发现任何错误,但当同一文件夹中有2个或更多数据集时,数据开始中断,结果开始中断,如下所示:

从第16行开始,错误开始,直到文件结束。
使用的mapreduce是:

  1. calc = mapreduce(
  2. input="hdfs://127.0.0.1:8020/user/cloudera/flumeFinal",
  3. input.format=make.input.format(format="csv", sep = ",",
  4. col.names=col.names,stringsAsFactors=F),
  5. map=function(k,lines){
  6. k <- lines[2]
  7. return(keyval(k,1))
  8. },
  9. reduce= function(k,lines) {
  10. keyval(k,sum(lines))

有没有人曾经遇到过类似的问题,可以帮助解决这个问题?
谢谢,布鲁诺

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题