hadoop 采用AWS SSO的Spark Delta

4urapxun 于 2022-11-01 发布在 Hadoop

关注(0)|答案(1)|浏览(144)

我想做的是：

跨多个AWS_PROFILE读取和写入S3存储桶

资源：

https://hadoop.apache.org/docs/stable/hadoop-aws/tools/hadoop-aws/index.html#Configuring_different_S3_buckets_with_Per-Bucket_Configuration
*是否显示了如何在每个存储桶上使用不同的信誉
******显示了如何使用不同的凭据提供程序
*不显示如何使用多个AWS_PROFILE
https://spark.apache.org/docs/latest/cloud-integration.html#authenticating
https://docs.aws.amazon.com/cli/latest/userguide/cli-configure-sso.html
No FileSystem for scheme: s3 with pyspark

目前为止，我的工作是：

AWS SSO工作正常，我可以通过更改环境变量AWS_PROFILE，通过boto3访问python中的不同资源
delta spark可以使用hadoop配置读取和写入S3
启用pyspark

builder.config("spark.sql.extensions",           
    "io.delta.sql.DeltaSparkSessionExtension")
.config("spark.sql.catalog.spark_catalog",
    "org.apache.spark.sql.delta.catalog.DeltaCatalog"))

的增量表

允许s3架构用于读/写

"spark.hadoop.fs.s3.impl",
  "org.apache.hadoop.fs.s3a.S3AFileSystem"

对一个或多个存储桶

"fs.s3a.bucket.{prod_bucket}.aws.credentials.provider",
"com.amazonaws.auth.InstanceProfileCredentialsProvider"

使用示例配置文件AWS_PROFILE

any help, suggestions, comments appreciated. thanks!

hadoop

来源：https://stackoverflow.com/questions/74061215/spark-delta-with-aws-sso

1条答案

按热度按时间

dsekswqp1#

截至2022年10月，s3 a连接器不支持AWS SSO/身份服务器，迁移到AWS SDK v2是前提条件，这是一个WiP。
请参阅HADOOP-18352

赞(0）回复(0）举报 2022-11-01

我来回答

hadoop 采用AWS SSO的Spark Delta

1条答案

相关问题

热门标签

最新问答