ec2(持久)hdfs和emr(瞬时)hdfs的通信方式

yebdmbv4  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(420)

我在amazonec2上建立了一个hadoop集群,其中包含namenode/datanode和一些其他服务。我的摄取作业将数据带入ec2hdfs集群(假设 hdfs://ec2-hdfs/ ).
现在我有一个管道,每周一批运行。我正在启动一个新的amazonemr集群来运行我的计算。一旦处理完成,我将终止emr集群。
需要在emr中运行的spark作业的输入在ec2 hdfs中( hdfs://ec2-hdfs/ ). 如何从新创建的emr集群访问它?我相信在emr集群启动期间应该有一些选项(bootstrap/vpc/subnet)。

wdebmtf2

wdebmtf21#

你必须启动 fs.defaultFScore-site.xml 在emr集群启动时指向持久集群的namenode,或者可以显式设置 hdfs://namenode:port:/ec2-hdfs 在你的代码里。

相关问题