我在amazonec2上建立了一个hadoop集群,其中包含namenode/datanode和一些其他服务。我的摄取作业将数据带入ec2hdfs集群(假设 hdfs://ec2-hdfs/
).
现在我有一个管道,每周一批运行。我正在启动一个新的amazonemr集群来运行我的计算。一旦处理完成,我将终止emr集群。
需要在emr中运行的spark作业的输入在ec2 hdfs中( hdfs://ec2-hdfs/
). 如何从新创建的emr集群访问它?我相信在emr集群启动期间应该有一些选项(bootstrap/vpc/subnet)。
1条答案
按热度按时间wdebmtf21#
你必须启动
fs.defaultFS
从core-site.xml
在emr集群启动时指向持久集群的namenode,或者可以显式设置hdfs://namenode:port:/ec2-hdfs
在你的代码里。