从emr上运行的spark作业连接到hdfs，在某种程度上，它不会在名称节点失败时受到影响(hdfs已启用ha)

c90pui9n 于 2021-07-14 发布在 Spark

关注(0)|答案(0)|浏览(195)

我们使用hdp2.7和hdfs，支持ha。
我们正在emr集群上运行spark作业，hadoop集群是emr集群的远程集群。
hdfs用于检查目录。
最初应用程序使用url:hdfs://“active name node hostname”/user连接到活动名称节点/（url在应用程序中使用活动名称节点hostname硬编码）
但是有一种情况，活动名称节点宕机，备用名称节点变为活动名称节点，在这种情况下，由于硬编码名称节点不可用，应用程序开始失败。
现在，在hadoop集群上运行的应用程序中可以通过在hdfs url中使用名称服务（dfs.nameservices）来处理这个问题，而不是使用活动名称节点的ip地址或主机名。
如何从运行在emr集群上的spark作业处理这个问题。在emr集群上，我们尝试使用名称服务id连接到hdfs，但是由于服务不是任何节点的主机名，我们得到了未知主机异常。
当应用程序在远程emr集群上运行并且hdfs是远程的（从emr连接到hdfs时，在名称节点failuer上不受影响），如何处理这种情况

hadoop hdfs apache-spark amazon-emr

来源：https://stackoverflow.com/questions/67019622/connecting-to-hdfs-from-spark-job-running-on-emr-in-a-way-it-does-not-get-affe

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

从emr上运行的spark作业连接到hdfs，在某种程度上，它不会在名称节点失败时受到影响(hdfs已启用ha)

暂无答案！

相关问题

热门标签

最新问答