帮助理解ui以及如何设置并行性或默认分区

zazmityj  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(461)

我是新的Spark流,并试图了解Spark用户界面和做优化。
在executors处进行处理比在driver处花费更少的时间。如何优化以使驱动程序任务更快?
我们正在使用dstream.repartition(defaultparallelism*3)来增加并行性,这会导致高无序。有没有避免手动重新分区以减少数据混乱的选项。
还试图了解阶段1中的6个任务和阶段2中的199个任务是如何创建的?
硬件配置:执行器核数:3;驱动核心:3个;动态定位是正确的;初始值,最小值,最大值执行者:25
参考屏幕:
作业详细信息:

工作的两个阶段:

foreachpartition-driver job=>比处理花费更多的时间

在执行人处处理:

非常感谢你的帮助。
提前谢谢。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题