我是新的pyspark和AWS。我试图读取数据从aws s3 pyspark版本3. 3. 0我尝试了这个:
from pyspark.sql import SparkSession
spark = SparkSession\
.builder\
.config('spark.master', 'local')\
.config('spark.app.name', 's3app')\
.config('spark.jars.packages', 'org.apache.hadoop:hadoop-aws:3.3.4,org.apache.hadoop:hadoop-common:3.3.4')\
.getOrCreate()
sc = spark.sparkContext
sc._jsc.hadoopConfiguration().set('fs.s3a.access.key', 'access-key')
sc._jsc.hadoopConfiguration().set('fs.s3a.secret.key', 'secret-key')
df = spark.read.format('parquet').load('s3a://path-to-s3')
我尝试了几乎所有关于“堆栈溢出”的解决方案,但没有一个对我有效。我得到了下面的error message,错误是代码的最后一行。
1条答案
按热度按时间w8f9ii691#
此错误是由于存储桶的权限引起的,请检查您的IAM策略。