目前,我们使用的是传统的数据仓库etl工具ibmdatastage。我们正在寻找迁移这些工作。这些工作主要包括连接和转换以派生事实表。哪种技术能更好地转移这些工作?我们正在使用hue oozie和impala查询进行etl,我们是否应该使用sparksql进行etl而不是impala查询?
f0ofjuux1#
r u如何在hive、impala等中实现Type2等对我来说,整个大数据栈对prod env是无用的u不仅追加数据,而且批量更新以加载类型2之类的数据。对于数据更正你需要大量的临时查询,更新,删除插入。从支持/开发团队运行大量临时查询以查找结果差异等。所有上述3点使这堆无用。用例是大量的数据,其中输出是一些估计而不是正确性,一个大的胖表,带有删除和删除或非结构化数据
1条答案
按热度按时间f0ofjuux1#
r u如何在hive、impala等中实现Type2等对我来说,整个大数据栈对prod env是无用的
u不仅追加数据,而且批量更新以加载类型2之类的数据。对于数据更正你需要大量的临时查询,更新,删除插入。从支持/开发团队运行大量临时查询以查找结果
差异等。所有上述3点使这堆无用。
用例是大量的数据,其中输出是一些估计而不是正确性,一个大的胖表,带有删除和删除或非结构化数据