插入文本文件的数据(mapreduce)

66bbxpm5 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(332)

我有一个大的文本文件，每一行都有一个时间戳和一些其他数据，比如：

timestamp1,data
timestamp2,data
timestamp5,data
timestamp7,data
...
timestampN,data

此文件按时间戳排序，但连续的时间戳之间可能存在间隙。我需要填补这些空白，写新的文件。
我想读两行连续的文件。但我有两个问题：
怎么读两行？nlineinputformat或multiplelinetextinputformat可能有帮助，他们会读line1+line2，line2+line3，。。。还是1+2号线，3+4号线？
当我运行多个Map器时，如何管理线？
还有其他算法/解决方案吗？也许这不能用mapreduce完成？
（Pig/Hive解决方案也有效）
提前谢谢。

hadoop Hive mapreduce apache-pig

来源：https://stackoverflow.com/questions/21186866/interpolate-data-of-a-text-file-mapreduce