在aws-glue-pyspark中设置spark配置

ztmd8pv5  于 2021-05-22  发布在  Spark
关注(0)|答案(1)|浏览(772)

我将aws glue与pyspark一起使用,并希望在sparksession中添加一些配置,例如。 '"spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem" , spark.hadoop.fs.s3a.multiobjectdelete.enable","false" , "spark.serializer", "org.apache.spark.serializer.KryoSerializer" , "spark.hadoop.fs.s3a.fast.upload","true" . 我用来初始化上下文的代码如下:

glueContext = GlueContext(SparkContext.getOrCreate())
spark = glueContext.spark_session

从文档中我了解到,在提交粘合作业时,我应该添加这些conf作为作业参数。是这样的,还是在初始化Spark时也可以添加?

bhmjp9jg

bhmjp9jg1#

这似乎没有出错-不确定是否有效

hadoop_conf = spark.sparkContext._jsc.hadoopConfiguration()
hadoop_conf.set("spark.hadoop.fs.s3.maxRetries", "20")
hadoop_conf.set("spark.hadoop.fs.s3.consistent.retryPolicyType", "exponential")

相关问题