我想做的是:
- 跨多个
AWS_PROFILE
读取和写入S3存储桶
资源:
- https://hadoop.apache.org/docs/stable/hadoop-aws/tools/hadoop-aws/index.html#Configuring_different_S3_buckets_with_Per-Bucket_Configuration
*是否显示了如何在每个存储桶上使用不同的信誉
******显示了如何使用不同的凭据提供程序
*不显示如何使用多个AWS_PROFILE - https://spark.apache.org/docs/latest/cloud-integration.html#authenticating
- https://docs.aws.amazon.com/cli/latest/userguide/cli-configure-sso.html
- No FileSystem for scheme: s3 with pyspark
目前为止,我的工作是:
- AWS SSO工作正常,我可以通过更改环境变量
AWS_PROFILE
,通过boto3
访问python中的不同资源 - delta spark可以使用hadoop配置读取和写入S3
- 启用pyspark
builder.config("spark.sql.extensions",
"io.delta.sql.DeltaSparkSessionExtension")
.config("spark.sql.catalog.spark_catalog",
"org.apache.spark.sql.delta.catalog.DeltaCatalog"))
的增量表
- 允许s3架构用于读/写
"spark.hadoop.fs.s3.impl",
"org.apache.hadoop.fs.s3a.S3AFileSystem"
- 对一个或多个存储桶
"fs.s3a.bucket.{prod_bucket}.aws.credentials.provider",
"com.amazonaws.auth.InstanceProfileCredentialsProvider"
使用示例配置文件AWS_PROFILE
any help, suggestions, comments appreciated. thanks!
1条答案
按热度按时间dsekswqp1#
截至2022年10月,s3 a连接器不支持AWS SSO/身份服务器,迁移到AWS SDK v2是前提条件,这是一个WiP。
请参阅HADOOP-18352