重新审视Spark on Kubernetes的数据位置问题:如果Spark单元与HDFS数据节点单元位于相同的节点上,那么数据本地化是否有效?
问答环节请访问:https://www.youtube.com/watch?v=5-4X3HylQQo似乎表明它不需要。
重新审视Spark on Kubernetes的数据位置问题:如果Spark单元与HDFS数据节点单元位于相同的节点上,那么数据本地化是否有效?
问答环节请访问:https://www.youtube.com/watch?v=5-4X3HylQQo似乎表明它不需要。
1条答案
按热度按时间nc1teljy1#
如果Kubernetes提供者提供了一个网络拓扑插件来解析数据的位置以及spark节点应该运行的位置,那么基本数据的位置就可以正常工作。* 并且您构建了包含code here * 的Kubernetes
有一个测试this data locality的方法。为了完整起见,我将它复制到这里:
下面介绍如何检查namenode中的数据局部性是否正常。
启动HDFS客户端单元并进入单元内部。
在单元中,在HDFS上创建一个简单的文本文件。
将文件的副本数设置为群集节点数。这可确保在运行客户端Pod的群集节点中有文件的副本。请等待一段时间,直到出现此情况。
运行下面的hdfs cat命令。从调试消息中,查看正在使用哪个datanode。确保它是您的本地datanode。(您可以从$ kubectl get pods hadoop -o json获得此命令|grep hostIP。请在机架外部执行此操作)
如果不是,您应该检查您的本机数据节点是否在上述两柴消息的清单中。如果不是,则是因为步骤(3)尚未完成。请稍候。(如果可能,您可以使用较小的丛集进行此测试)
重复hdfs cat命令多次。检查是否始终使用相同的数据节点。