假设我想用“orderby”子句执行select查询,并且我的数据分布在多台机器上。Map如何减少获取数据以及在何处执行“按顺序”查询。
jv4diomz1#
map-reduce可以用来实现分布式的“order-by”。... 雅虎的一个hadoop集群在209秒内整理了1TB的数据。。。排序使用了1800张Map和1800张Map。。。apachehadoop赢得了太字节排序基准测试这可以通过将顺序键Map到范围(通过它们的值)来实现。然而,hive正在用一个reducer实现“orderby”。... 为了对所有结果进行总排序,必须有一个减速机对最终输出进行排序。如果输出中的行数太大,则单个减速机可能需要很长时间才能完成。。。hive-languagemanual-sort-by-order-by语法
1条答案
按热度按时间jv4diomz1#
map-reduce可以用来实现分布式的“order-by”。
... 雅虎的一个hadoop集群在209秒内整理了1TB的数据。。。排序使用了1800张Map和1800张Map。。。
apachehadoop赢得了太字节排序基准测试
这可以通过将顺序键Map到范围(通过它们的值)来实现。
然而,hive正在用一个reducer实现“orderby”。
... 为了对所有结果进行总排序,必须有一个减速机对最终输出进行排序。如果输出中的行数太大,则单个减速机可能需要很长时间才能完成。。。
hive-languagemanual-sort-by-order-by语法