我在spark独立模式下运行。我用了4个几乎总共200个内核的工人来运行我的代码。我认为分区的数量应该与内核的数量相似,以优化时间开销。然而,当n=200比n长时,它使用的时间约为80。对这种情况有什么建议吗?我认为洗牌是无法避免的。
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!