bdm的sqoop增量加载

wsxa1bj1 于 2021-06-03 发布在 Sqoop

关注(0)|答案(1)|浏览(314)

我是informatica bdm的新手，我有一个用例，在这个用例中，我必须每天从rdbms向hive增量导入数据（100个表）。有人能指导我用最好的方法来实现这一点吗？
谢谢，苏米特

sqoop informatica informatica-powerexchange

来源：https://stackoverflow.com/questions/53862120/sqoop-incremental-load-using-informatica-bdm

1条答案

按热度按时间

kxkpmulp1#

hadoop是一种写一读多（write-onces-read-many，worm）的方法，增量加载不是一件容易的事情。您可以遵循以下准则并验证您当前的需求
如果表是小型/中型并且没有太多记录，最好刷新整个表
如果表太大并且增量加载有add/update/delete操作，您可以考虑暂存delta并执行join操作来重新创建数据集。
对于大表和大增量，您可以为所有最新记录创建一个版本号，每个增量可能会出现在一个新目录中，并且应该创建一个视图来获取最新版本以供进一步处理。这样可以避免繁重的合并操作。
如果delete操作不是以更改的形式出现，那么您还需要考虑如何对其进行操作，在这种情况下，您需要获得完全刷新。

赞(0）回复(0）举报 2021-06-03

我来回答

bdm的sqoop增量加载

1条答案

相关问题

热门标签

最新问答