在spark作业处理中数据如何流向执行器

ecbunoof  于 2023-04-21  发布在  Apache
关注(0)|答案(1)|浏览(118)

我在hadoop集群上运行spark。Hadoop有一些数据块,我们需要在这些数据块上运行spark job。我的问题是,如果分区在node2,executor在node3,那么node3中的executor将如何处理node2的数据块。node2中的分区中的数据是否被传输到node3。spark如何在内部确保executor在同一台机器上有分区要处理?

kq4fsx7k

kq4fsx7k1#

任何HDFS客户端都可以读取远程数据块。它们不需要是“节点本地”查找;这只是YARN试图实现的优化。
在Spark UI中,您应该能够看到执行时间轴中的哪些任务是本地的或远程的

相关问题