我是informatica bdm的新手,我有一个用例,在这个用例中,我必须每天从rdbms向hive增量导入数据(100个表)。有人能指导我用最好的方法来实现这一点吗?谢谢,苏米特
kxkpmulp1#
hadoop是一种写一读多(write-onces-read-many,worm)的方法,增量加载不是一件容易的事情。您可以遵循以下准则并验证您当前的需求如果表是小型/中型并且没有太多记录,最好刷新整个表如果表太大并且增量加载有add/update/delete操作,您可以考虑暂存delta并执行join操作来重新创建数据集。对于大表和大增量,您可以为所有最新记录创建一个版本号,每个增量可能会出现在一个新目录中,并且应该创建一个视图来获取最新版本以供进一步处理。这样可以避免繁重的合并操作。如果delete操作不是以更改的形式出现,那么您还需要考虑如何对其进行操作,在这种情况下,您需要获得完全刷新。
1条答案
按热度按时间kxkpmulp1#
hadoop是一种写一读多(write-onces-read-many,worm)的方法,增量加载不是一件容易的事情。您可以遵循以下准则并验证您当前的需求
如果表是小型/中型并且没有太多记录,最好刷新整个表
如果表太大并且增量加载有add/update/delete操作,您可以考虑暂存delta并执行join操作来重新创建数据集。
对于大表和大增量,您可以为所有最新记录创建一个版本号,每个增量可能会出现在一个新目录中,并且应该创建一个视图来获取最新版本以供进一步处理。这样可以避免繁重的合并操作。
如果delete操作不是以更改的形式出现,那么您还需要考虑如何对其进行操作,在这种情况下,您需要获得完全刷新。