每当我在程序中使用sortbykey时,它就会挂起!在spark中,它们是一种更有效的rdd分类方法吗?那rangepartitioner呢?它们是使用rangepartitioner进行排序的方法吗?我的rdd是 [(Integer, SomeType)] . 排序之后,我使用rangepartitioner对数据进行分区,并使用mappartitions对其进行进一步处理。在这种情况下,排序rdd最优雅的方法是什么?基本上,我想我的rdd排序之前,我开始与mappartitions。
[(Integer, SomeType)]
qgelzfjb1#
Spark不是用来分类的。如果它挂起,意味着您正在尝试对非常大的数据集进行排序。扪心自问,你将如何处理数以百万计的排序结果集?改用takeordered。
1条答案
按热度按时间qgelzfjb1#
Spark不是用来分类的。如果它挂起,意味着您正在尝试对非常大的数据集进行排序。
扪心自问,你将如何处理数以百万计的排序结果集?改用takeordered。