hadoop 采用AWS SSO的Spark Delta

4urapxun  于 2022-11-01  发布在  Hadoop
关注(0)|答案(1)|浏览(144)

我想做的是:

  • 跨多个AWS_PROFILE读取和写入S3存储桶

资源:

目前为止,我的工作是:

  • AWS SSO工作正常,我可以通过更改环境变量AWS_PROFILE,通过boto3访问python中的不同资源
  • delta spark可以使用hadoop配置读取和写入S3
  • 启用pyspark
builder.config("spark.sql.extensions",           
    "io.delta.sql.DeltaSparkSessionExtension")
.config("spark.sql.catalog.spark_catalog",
    "org.apache.spark.sql.delta.catalog.DeltaCatalog"))

的增量表

  • 允许s3架构用于读/写
"spark.hadoop.fs.s3.impl",
  "org.apache.hadoop.fs.s3a.S3AFileSystem"
  • 对一个或多个存储桶
"fs.s3a.bucket.{prod_bucket}.aws.credentials.provider",
"com.amazonaws.auth.InstanceProfileCredentialsProvider"

使用示例配置文件AWS_PROFILE

any help, suggestions, comments appreciated. thanks!
dsekswqp

dsekswqp1#

截至2022年10月,s3 a连接器不支持AWS SSO/身份服务器,迁移到AWS SDK v2是前提条件,这是一个WiP。
请参阅HADOOP-18352

相关问题