缺失时间序列数据

bt1cpqcv 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(389)

我有一个大的文本文件（tbs），每一行都有一个时间戳和一些其他数据，比如：

timestamp1,data
timestamp2,data
timestamp5,data
timestamp7,data
...
timestampN,data

此文件按时间戳排序，但连续的时间戳之间可能存在间隙。我需要填补这些空白，写新的文件。
这可以在hadoop map reduce中完成吗？问这个问题的原因是，为了插入缺失的行，我也需要上一行和下一行。例如，为了插值timestamp6，我需要timestamp5和timestamp7中的值。所以，如果从timestamp7开始，在另一个数据块中，我将无法计算timestamp6。。
还有其他算法/解决方案吗？也许这不能用mapreduce完成？我们能在rhadoop做这个吗？
（Pig/Hive解决方案也有效）

hadoop mapreduce time-series r Interpolation

来源：https://stackoverflow.com/questions/25439251/missing-time-series-data-in-hadoop