mapreduce何时不适合业务?

lzfw57am  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(433)

关闭。这个问题是基于意见的。它目前不接受答案。
**想改进这个问题吗?**更新这个问题,这样就可以通过编辑这篇文章用事实和引文来回答。

6年前关门了。
改进这个问题
您好,我有麻烦的地方,提出mapreduce将不适合。我知道用mapreduce处理少量数据是没有意义的。但是什么样的“复杂”查询不适合mapreduce呢?
就像一个拥有数PB数据的企业,mapreduce是一个很好的查询方法,可以将一个月内销售的某类产品的总数量相加,对吗?
但是,企业通常会执行哪些复杂的查询,而这些查询会导致mapreduce没有真正的好处?

0tdrvxhp

0tdrvxhp1#

一个例子是报告/数据可视化。一些报告bi工具将hive作为插件,但您可能不想等待数分钟,等待数据处理/mapreduce完成。在这种情况下,您可以执行etl,将数据从hdfs移动到rdbms,比如mysql/infobright,并使用rdbms之外的报告。

rjjhvcjd

rjjhvcjd2#

通常,mapreduce/hive中的所有内容都是聚合查询,但您可以使用非聚合查询。这只是一个没有“reduce”操作的查询。
hive可以使用多个查询和窗口函数等执行相当复杂的查询。因此,不确定“mapreduce适用于简单聚合查询”语句是否完全正确。
不适合mapreduce/hive的业务查询类型是实时查询。例如,趋势查询,比如twitter的顶级哈希标签等,开销会使它们效率低下。
或者,如果由于某种原因必须对数据进行规范化,mapreduce/hive要求它们基本上位于一个表中。例如,如果您有一个高度规范化的“销售点”数据库,并且希望执行任何类型的查询,除非首先对数据进行非规范化处理,否则这将是非常痛苦的。

相关问题