hadoop mapreduce功能

sh7euo9m  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(379)

假设我想用“orderby”子句执行select查询,并且我的数据分布在多台机器上。Map如何减少获取数据以及在何处执行“按顺序”查询。

jv4diomz

jv4diomz1#

map-reduce可以用来实现分布式的“order-by”。
... 雅虎的一个hadoop集群在209秒内整理了1TB的数据。。。排序使用了1800张Map和1800张Map。。。
apachehadoop赢得了太字节排序基准测试
这可以通过将顺序键Map到范围(通过它们的值)来实现。
然而,hive正在用一个reducer实现“orderby”。
... 为了对所有结果进行总排序,必须有一个减速机对最终输出进行排序。如果输出中的行数太大,则单个减速机可能需要很长时间才能完成。。。
hive-languagemanual-sort-by-order-by语法

相关问题