为什么索特比基的Spark这么慢?他们有别的选择吗?

nbnkbykc  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(371)

每当我在程序中使用sortbykey时,它就会挂起!在spark中,它们是一种更有效的rdd分类方法吗?那rangepartitioner呢?它们是使用rangepartitioner进行排序的方法吗?我的rdd是 [(Integer, SomeType)] . 排序之后,我使用rangepartitioner对数据进行分区,并使用mappartitions对其进行进一步处理。在这种情况下,排序rdd最优雅的方法是什么?基本上,我想我的rdd排序之前,我开始与mappartitions。

qgelzfjb

qgelzfjb1#

Spark不是用来分类的。如果它挂起,意味着您正在尝试对非常大的数据集进行排序。
扪心自问,你将如何处理数以百万计的排序结果集?改用takeordered。

相关问题