在spark作业处理中数据如何流向执行器

ecbunoof 于 2023-04-21 发布在 Apache

关注(0)|答案(1)|浏览(118)

我在hadoop集群上运行spark。Hadoop有一些数据块，我们需要在这些数据块上运行spark job。我的问题是，如果分区在node2，executor在node3，那么node3中的executor将如何处理node2的数据块。node2中的分区中的数据是否被传输到node3。spark如何在内部确保executor在同一台机器上有分区要处理？

来源：https://stackoverflow.com/questions/76023141/how-data-flows-to-executor-in-spark-job-processing

1条答案

按热度按时间

任何HDFS客户端都可以读取远程数据块。它们不需要是“节点本地”查找;这只是YARN试图实现的优化。
在Spark UI中，您应该能够看到执行时间轴中的哪些任务是本地的或远程的

赞(0）回复(0）举报 2023-04-21

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 5个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 5个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 5个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 5个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 5个月前