spark sql与impala for etl之比较

yi0zb3m4 于 2021-06-26 发布在 Impala

关注(0)|答案(1)|浏览(463)

目前，我们使用的是传统的数据仓库etl工具ibmdatastage。我们正在寻找迁移这些工作。这些工作主要包括连接和转换以派生事实表。哪种技术能更好地转移这些工作？我们正在使用hue oozie和impala查询进行etl，我们是否应该使用sparksql进行etl而不是impala查询？

impala hue apache-spark apache-spark-sql etl

来源：https://stackoverflow.com/questions/44321362/spark-sql-vs-impala-for-etl

1条答案

按热度按时间

f0ofjuux1#

r u如何在hive、impala等中实现Type2等对我来说，整个大数据栈对prod env是无用的
u不仅追加数据，而且批量更新以加载类型2之类的数据。对于数据更正你需要大量的临时查询，更新，删除插入。从支持/开发团队运行大量临时查询以查找结果
差异等。所有上述3点使这堆无用。
用例是大量的数据，其中输出是一些估计而不是正确性，一个大的胖表，带有删除和删除或非结构化数据

赞(0）回复(0）举报 2021-06-26

我来回答

spark sql与impala for etl之比较

1条答案

相关问题

热门标签

最新问答