为什么spark任务id没有按顺序执行？

vqlkdk9b 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(457)

我运行最简单的程序wordcount，代码如下：

val text = spark.read.textFile("/datasets/wordcount_512m.txt")
text.flatMap(line => line.split(" ")).groupByKey(identity).count().collect()

我的hdfs块大小是128mb，有两个执行器，每个执行器有两个内核。我查看了spark用户界面，在第0阶段，这很正常。

有四个任务并行运行。
但是在第一阶段发生了一件奇怪的事情，一些任务id没有按顺序执行。

如图所示，一些较大的任务id在小任务id之前运行（任务91在任务0之前运行）。这些异常任务ID代表什么？

来源：https://stackoverflow.com/questions/61753077/why-spark-task-id-not-executed-in-order

1条答案

按热度按时间

作业中的spark阶段必须按顺序执行，否则在计算上就没有意义了。
在一个阶段中有任务-每个分区1个。这些任务按什么顺序执行并不重要，只要它们完成就行。这就是并行计算的概念-没有依赖关系。这些的时间安排并不相关。

赞(0）回复(0）举报 2021-05-27

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 8个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 8个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 8个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 8个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 8个月前