我需要使用spark和yarn来实现hdfs的节点局部数据吗?如果我使用spark standalone cluster manager并将数据分布在hdfs集群中,spark如何知道数据位于本地节点上?
cx6n0qe31#
Yarn是一个资源管理器。它处理内存和进程,而不是hdfs或数据局部性的工作。既然spark可以从hdfs源中读取数据,namenodes和datanodes负责yarn之外的hdfs块数据管理,那么我相信答案是否定的,您不需要yarn。但是您已经有了hdfs,这意味着您有了hadoop,那么为什么不利用将spark集成到yarn中的优势呢?
1条答案
按热度按时间cx6n0qe31#
Yarn是一个资源管理器。它处理内存和进程,而不是hdfs或数据局部性的工作。
既然spark可以从hdfs源中读取数据,namenodes和datanodes负责yarn之外的hdfs块数据管理,那么我相信答案是否定的,您不需要yarn。但是您已经有了hdfs,这意味着您有了hadoop,那么为什么不利用将spark集成到yarn中的优势呢?