在spark worker中使用hadoop配置

yshpjwxd  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(439)

我想从中读取一些数据рA直接从spark worker获得:
因此,在spark程序中,我有一个hadoop配置: val configuration = session.sparkContext.hadoopConfiguration 但我不能在工人那里用,因为它不是 Serializable :

  1. spark.sparkContext.parallelize(paths).mapPartitions(paths => {
  2. for (path <- paths) yield {
  3. //for example, read the parquet footer
  4. val footer = ParquetFileReader.readFooter(configuration, new Path(path), ParquetMetadataConverter.NO_FILTER)
  5. footer.getFileMetaData.getSchema.getName
  6. }
  7. })

结果

  1. object not serializable (class: org.apache.hadoop.conf.Configuration...
bpzcxfmw

bpzcxfmw1#

我不知道如何将配置对象用于mappartition。参考此解决方案,您必须手动将conf重写到mappartition中。

相关问题