我是否需要使用spark和yarn来使用hdfs实现节点本地数据局部性?

kdfy810k  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(349)

我需要使用spark和yarn来实现hdfs的节点局部数据吗?
如果我使用spark standalone cluster manager并将数据分布在hdfs集群中,spark如何知道数据位于本地节点上?

cx6n0qe3

cx6n0qe31#

Yarn是一个资源管理器。它处理内存和进程,而不是hdfs或数据局部性的工作。
既然spark可以从hdfs源中读取数据,namenodes和datanodes负责yarn之外的hdfs块数据管理,那么我相信答案是否定的,您不需要yarn。但是您已经有了hdfs,这意味着您有了hadoop,那么为什么不利用将spark集成到yarn中的优势呢?

相关问题