在spark worker中使用hadoop配置

yshpjwxd 于 2021-05-27 发布在 Hadoop

关注(0)|答案(1)|浏览(439)

我想从中读取一些数据рA直接从spark worker获得：
因此，在spark程序中，我有一个hadoop配置： val configuration = session.sparkContext.hadoopConfiguration 但我不能在工人那里用，因为它不是 Serializable :

spark.sparkContext.parallelize(paths).mapPartitions(paths => {
      for (path <- paths) yield {
        //for example, read the parquet footer
        val footer = ParquetFileReader.readFooter(configuration, new Path(path), ParquetMetadataConverter.NO_FILTER)
        footer.getFileMetaData.getSchema.getName
      }
    })

结果

object not serializable (class: org.apache.hadoop.conf.Configuration...

hadoop scala apache-spark

来源：https://stackoverflow.com/questions/58305263/using-of-hadoop-configuration-at-spark-worker

1条答案

按热度按时间

bpzcxfmw1#

我不知道如何将配置对象用于mappartition。参考此解决方案，您必须手动将conf重写到mappartition中。

赞(0）回复(0）举报 2021-05-27

我来回答

在spark worker中使用hadoop配置

1条答案

相关问题

热门标签

最新问答