我是否需要使用spark和yarn来使用hdfs实现节点本地数据局部性？

kdfy810k 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(350)

我需要使用spark和yarn来实现hdfs的节点局部数据吗？
如果我使用spark standalone cluster manager并将数据分布在hdfs集群中，spark如何知道数据位于本地节点上？

来源：https://stackoverflow.com/questions/40101578/do-i-need-to-use-spark-with-yarn-to-achieve-node-local-data-locality-with-hdfs

1条答案

按热度按时间

cx6n0qe31#

Yarn是一个资源管理器。它处理内存和进程，而不是hdfs或数据局部性的工作。
既然spark可以从hdfs源中读取数据，namenodes和datanodes负责yarn之外的hdfs块数据管理，那么我相信答案是否定的，您不需要yarn。但是您已经有了hdfs，这意味着您有了hadoop，那么为什么不利用将spark集成到yarn中的优势呢？

赞(0）回复(0）举报 2021-06-03

我来回答

我是否需要使用spark和yarn来使用hdfs实现节点本地数据局部性？

1条答案

相关问题

热门标签

最新问答