在aws-glue-pyspark中设置spark配置

ztmd8pv5 于 2021-05-22 发布在 Spark

关注(0)|答案(1)|浏览(772)

我将aws glue与pyspark一起使用，并希望在sparksession中添加一些配置，例如。 '"spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem" , spark.hadoop.fs.s3a.multiobjectdelete.enable","false" , "spark.serializer", "org.apache.spark.serializer.KryoSerializer" , "spark.hadoop.fs.s3a.fast.upload","true" . 我用来初始化上下文的代码如下：

glueContext = GlueContext(SparkContext.getOrCreate())
spark = glueContext.spark_session

从文档中我了解到，在提交粘合作业时，我应该添加这些conf作为作业参数。是这样的，还是在初始化Spark时也可以添加？

hadoop apache-spark amazon-web-services Configuration

来源：https://stackoverflow.com/questions/64350445/set-spark-configuration-in-aws-glue-pyspark

1条答案

按热度按时间

bhmjp9jg1#

这似乎没有出错-不确定是否有效

hadoop_conf = spark.sparkContext._jsc.hadoopConfiguration()
hadoop_conf.set("spark.hadoop.fs.s3.maxRetries", "20")
hadoop_conf.set("spark.hadoop.fs.s3.consistent.retryPolicyType", "exponential")

赞(0）回复(0）举报 2021-05-23

我来回答

在aws-glue-pyspark中设置spark配置

1条答案

相关问题

热门标签

最新问答