hbase中的增量数据加载

e3bfsja2  于 2021-06-09  发布在  Hbase
关注(0)|答案(1)|浏览(472)

我正在寻找将增量数据(基于源表的时间戳)加载到表中的最佳方法。我有一个源表(在hbase中),其中的数据每天都会更新。在第一个流中,我必须将完整的数据传输到我的测试表(在hbase中)。第二天,我只需要从源表传输新添加的记录。为此,我将使用时间戳来区分哪些需要传输,哪些不需要传输。所以哪一种是最好的转移方式。我应该用pig,mapreduce还是spark?

tag5nh1u

tag5nh1u1#

您是否考虑过使用org.apache.hadoop.hbase.mapreduce.copytable这样的现有类?它们支持增量拷贝。
不需要写代码。

相关问题