帮助理解ui以及如何设置并行性或默认分区

zazmityj 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(461)

我是新的Spark流，并试图了解Spark用户界面和做优化。
在executors处进行处理比在driver处花费更少的时间。如何优化以使驱动程序任务更快？
我们正在使用dstream.repartition（defaultparallelism*3）来增加并行性，这会导致高无序。有没有避免手动重新分区以减少数据混乱的选项。
还试图了解阶段1中的6个任务和阶段2中的199个任务是如何创建的？
硬件配置：执行器核数：3；驱动核心：3个；动态定位是正确的；初始值，最小值，最大值执行者：25
参考屏幕：
作业详细信息：

工作的两个阶段：

foreachpartition-driver job=>比处理花费更多的时间

在执行人处处理：

非常感谢你的帮助。
提前谢谢。