pyspark 错误执行器:阶段0.0(TID 0)/ 1]中的任务0.0出现异常,waitResult中抛出异常:

vmpqdwk3  于 2023-01-01  发布在  Spark
关注(0)|答案(1)|浏览(283)

我是新的pyspark和AWS。我试图读取数据从aws s3 pyspark版本3. 3. 0我尝试了这个:

  1. from pyspark.sql import SparkSession
  2. spark = SparkSession\
  3. .builder\
  4. .config('spark.master', 'local')\
  5. .config('spark.app.name', 's3app')\
  6. .config('spark.jars.packages', 'org.apache.hadoop:hadoop-aws:3.3.4,org.apache.hadoop:hadoop-common:3.3.4')\
  7. .getOrCreate()
  8. sc = spark.sparkContext
  9. sc._jsc.hadoopConfiguration().set('fs.s3a.access.key', 'access-key')
  10. sc._jsc.hadoopConfiguration().set('fs.s3a.secret.key', 'secret-key')
  11. df = spark.read.format('parquet').load('s3a://path-to-s3')

我尝试了几乎所有关于“堆栈溢出”的解决方案,但没有一个对我有效。我得到了下面的error message,错误是代码的最后一行。

w8f9ii69

w8f9ii691#

此错误是由于存储桶的权限引起的,请检查您的IAM策略。

相关问题