pyspark 错误执行器:阶段0.0(TID 0)/ 1]中的任务0.0出现异常,waitResult中抛出异常:

vmpqdwk3  于 2023-01-01  发布在  Spark
关注(0)|答案(1)|浏览(258)

我是新的pyspark和AWS。我试图读取数据从aws s3 pyspark版本3. 3. 0我尝试了这个:

from pyspark.sql import SparkSession

spark = SparkSession\
.builder\
.config('spark.master', 'local')\
.config('spark.app.name', 's3app')\
.config('spark.jars.packages', 'org.apache.hadoop:hadoop-aws:3.3.4,org.apache.hadoop:hadoop-common:3.3.4')\
.getOrCreate()

sc = spark.sparkContext

sc._jsc.hadoopConfiguration().set('fs.s3a.access.key', 'access-key')
sc._jsc.hadoopConfiguration().set('fs.s3a.secret.key', 'secret-key')

df = spark.read.format('parquet').load('s3a://path-to-s3')

我尝试了几乎所有关于“堆栈溢出”的解决方案,但没有一个对我有效。我得到了下面的error message,错误是代码的最后一行。

w8f9ii69

w8f9ii691#

此错误是由于存储桶的权限引起的,请检查您的IAM策略。

相关问题