我正在寻找将增量数据(基于源表的时间戳)加载到表中的最佳方法。我有一个源表(在hbase中),其中的数据每天都会更新。在第一个流中,我必须将完整的数据传输到我的测试表(在hbase中)。第二天,我只需要从源表传输新添加的记录。为此,我将使用时间戳来区分哪些需要传输,哪些不需要传输。所以哪一种是最好的转移方式。我应该用pig,mapreduce还是spark?
tag5nh1u1#
您是否考虑过使用org.apache.hadoop.hbase.mapreduce.copytable这样的现有类?它们支持增量拷贝。不需要写代码。
1条答案
按热度按时间tag5nh1u1#
您是否考虑过使用org.apache.hadoop.hbase.mapreduce.copytable这样的现有类?它们支持增量拷贝。
不需要写代码。