我在spark ui中看到了这个细节图:
关于这个图表,我有几个问题:
1-为什么调度延迟和任务反序列化比计算时间要花这么长时间?这是否意味着作业优化(我的spark脚本)出了问题?
2-据我所知,每行对应一个执行者(参见 1/10.42.3.34
, 2/10.42.4.160
左栏的)。每个执行器有3个核心,但有些行包含2个“彩色条”,有些行包含3个条。为什么?每个彩色条是否针对特定的核心/任务?那为什么有2根线,而有3根线呢?这是否意味着1核根本不起作用?
一行中的3个彩色条从不在同一位置开始。那是什么意思?这是否告诉我们,虽然并行运行,但任务不会同时启动?
4-同样适用于钢筋的末端。
5-为什么有些条有黄色结尾(表示无序写入时间),而其他条没有?
6-为什么有些条有紫色结尾(表示结果序列化时间),而其他条没有?
7-为什么有些条以黄色结尾,然后是紫色(无序写入和序列化)?那里发生了什么?
8-在图表的顶部是2秒 Across all Tasks
. 这是怎么计算出来的?当我查看任务持续时间时,我看不到需要超过几毫秒的任务。
我相信理解这个图表是非常重要的,所以任何帮助都是非常感谢的。干杯。
暂无答案!
目前还没有任何答案,快来回答吧!