如何使用胶水读取多个s3桶？

nzrxty8p 于 2021-05-16 发布在 Spark

关注(0)|答案(1)|浏览(615)

使用spark时，我可以使用前缀中的*从多个bucket读取数据。例如，我的文件夹结构如下：

s3://bucket/folder/computation_date=2020-11-01/
s3://bucket/folder/computation_date=2020-11-02/
s3://bucket/folder/computation_date=2020-11-03/
etc.

使用pyspark，如果我想读取第11个月的所有数据，我可以：

input_bucket = [MY-BUCKET]
input_prefix = [MY-FOLDER/computation_date=2020-11-*]
df_spark = spark.read.parquet("s3://{}/{}/".format(input_bucket, input_prefix))

如何使用胶水实现相同的功能？以下方法似乎不起作用：

input_bucket = [MY-BUCKET]
input_prefix = [MY-FOLDER/computation_date=2020-11-*]
df_glue = glueContext.create_dynamic_frame_from_options(
            connection_type="s3",
            connection_options = {
                "paths": ["s3://{}/{}/".format(input_bucket, input_prefix)]
            },
            format="parquet",
            transformation_ctx="df_spark")

python apache-spark pyspark aws-glue amazon-web-services

来源：https://stackoverflow.com/questions/65079577/how-can-i-read-multiple-s3-buckets-using-glue

1条答案

按热度按时间

jbose2ul1#

我用Spark代替胶水读文件

glueContext = GlueContext(SparkContext.getOrCreate())
spark = glueContext.spark_session

input_bucket = [MY-BUCKET]
input_prefix = [MY-FOLDER/computation_date=2020-11-*]
df_spark = spark.read.parquet("s3://{}/{}/".format(input_bucket, input_prefix))

赞(0）回复(0）举报 2021-05-17

我来回答

如何使用胶水读取多个s3桶？

1条答案

相关问题

热门标签

最新问答