为什么索特比基的Spark这么慢？他们有别的选择吗？

nbnkbykc 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(371)

每当我在程序中使用sortbykey时，它就会挂起！在spark中，它们是一种更有效的rdd分类方法吗？那rangepartitioner呢？它们是使用rangepartitioner进行排序的方法吗？我的rdd是 [(Integer, SomeType)] . 排序之后，我使用rangepartitioner对数据进行分区，并使用mappartitions对其进行进一步处理。在这种情况下，排序rdd最优雅的方法是什么？基本上，我想我的rdd排序之前，我开始与mappartitions。

hadoop scala apache-spark bigdata

来源：https://stackoverflow.com/questions/36065898/why-is-sortbykey-so-slow-in-spark-is-their-any-alternative-for-that