我在hadoop集群上运行spark。Hadoop有一些数据块,我们需要在这些数据块上运行spark job。我的问题是,如果分区在node2,executor在node3,那么node3中的executor将如何处理node2的数据块。node2中的分区中的数据是否被传输到node3。spark如何在内部确保executor在同一台机器上有分区要处理?
kq4fsx7k1#
任何HDFS客户端都可以读取远程数据块。它们不需要是“节点本地”查找;这只是YARN试图实现的优化。在Spark UI中,您应该能够看到执行时间轴中的哪些任务是本地的或远程的
1条答案
按热度按时间kq4fsx7k1#
任何HDFS客户端都可以读取远程数据块。它们不需要是“节点本地”查找;这只是YARN试图实现的优化。
在Spark UI中,您应该能够看到执行时间轴中的哪些任务是本地的或远程的