请解释在spark ui的executors选项卡页面中显示的rdd块是什么。我在下面强调了这一点。
在我的例子中,我通常认为rdd块是2。
是不是和平行度有关。正如你所看到的,活跃核心的数量是4,但rdd块在我的情况下主要是2-3-请你解释一下??
理想的任务执行时间应该是什么。我在博客上读到一个任务至少要运行100毫秒。
https://umbertogriffo.gitbooks.io/apache-spark-best-practices-and-tuning/content/sparksqlshufflepartitions_draft.html
这是为了最短的运行时间。但是理想的任务执行时间应该是多少,这样我们就可以决定是减少分区还是增加分区。??
暂无答案!
目前还没有任何答案,快来回答吧!