spark与自定义hadoop文件系统

31moq8wy  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(405)

我已经有一个带有yarn的集群,配置为使用core-site.xml中的自定义hadoop文件系统:

  1. <property>
  2. <name>fs.custom.impl</name>
  3. <value>package.of.custom.class.CustomFileSystem</value>
  4. </property>

我想在这个yarn集群上运行一个spark作业,它从这个customfilesystem读取一个输入rdd:

  1. final JavaPairRDD<String, String> files =
  2. sparkContext.wholeTextFiles("custom://path/to/directory");

有没有办法不用重新配置spark就可以做到这一点?i、 e.我可以将spark指向现有的core-site.xml吗?最好的方法是什么?

zwghvu4y

zwghvu4y1#

HADOOP_CONF_DIR 到包含 core-site.xml . (这一点在《Yarn上运行Spark》中有记载。)
你仍然需要确保 package.of.custom.class.CustomFileSystem 在类路径上。

相关问题