我是新的Spark流,并试图了解Spark用户界面和做优化。
在executors处进行处理比在driver处花费更少的时间。如何优化以使驱动程序任务更快?
我们正在使用dstream.repartition(defaultparallelism*3)来增加并行性,这会导致高无序。有没有避免手动重新分区以减少数据混乱的选项。
还试图了解阶段1中的6个任务和阶段2中的199个任务是如何创建的?
硬件配置:执行器核数:3;驱动核心:3个;动态定位是正确的;初始值,最小值,最大值执行者:25
参考屏幕:
作业详细信息:
工作的两个阶段:
foreachpartition-driver job=>比处理花费更多的时间
在执行人处处理:
非常感谢你的帮助。
提前谢谢。
暂无答案!
目前还没有任何答案,快来回答吧!