mapreduce的默认输入键是什么？

wfveoks0 于 2021-06-01 发布在 Hadoop

关注(0)|答案(1)|浏览(327)

我在用 MpaReduce 基于 hadoop 2.6.0 ，我想跳过数据文件的前六行，所以我使用

if(key.get()<6) 
   return ; 
else 
   {do ....}

在我的 map() function .
但这是不对的。我发现 input key 的 map() 不是 offset 文件行的。关键是每行的长度之和。为什么？它看起来不像很多书中的词。

1条答案

如果查看代码，它是文件的实际字节偏移量，而不是行偏移量。
如果要跳过文件的前n行，可能需要编写自己的输入格式/记录读取器，或者确保在Map器逻辑中保留一个行计数器：

int lines = 0;
 public void map(LongWritable key, Text value, ...) {
   if(++lines < 6) { return; }

 }

如果分割文本文件（因此有>1个Map器），这显然不起作用。所以写一篇 InputFormat 是解决这个问题最干净的方法。
另一个技巧是测量前n行在特定文件中的字节数，然后在开始时跳过这个字节数。