Impala 还是Hive？

e0uiprwp 于 2021-06-26 发布在 Impala

关注(0)|答案(1)|浏览(593)

情况-在cdh 5.2集群（16个节点，共享集群）的impala管理表中，每天大约有3000万行、价值2年的数据。
尝试建立一个每日聚合逻辑，其中一天的数据被引入并聚合，并且该过程在随后的几天中反复进行(穿过 Impala ）
这是一个一次性过程，用于为整个2年窗口创建聚合，随后被其他工具使用。
我在想，这里的工具选择是否真的正确？我们不应该把这个任务交给hive来利用集群的能力吗（这样就可以相对容易地触发mapreduce和聚合）？
[编辑]
只是澄清一下，数据已经在impala表中了，我所指的聚合是在这个基础上完成的。我从解决方案的Angular 考虑的是，是否最好将这些数据赋给配置单元表（而不是impala表），然后让map reduce处理聚合？
基于 Impala 的聚合对我们来说真的很慢，尽管我们正在研究调整它，我想知道我们是否可以做一些不同的事情？

mapreduce impala cloudera cloudera-cdh

来源：https://stackoverflow.com/questions/28279510/impala-or-hive