python 使用钩子从GCS获取在2个日期之间创建的文件列表

xpcnnkqh  于 2023-04-04  发布在  Python
关注(0)|答案(1)|浏览(107)

我想列出所有的文件从GCS使用前缀和谷歌提供商钩从气流,但它不按预期工作。
我的Python代码是这样的:

midnight = datetime.datetime.utcnow().replace(hour=0, minute=0, second=0, microsecond=0)
now = datetime.datetime.utcnow()
gcs_hook = GCSHook('connection')
file_list = [os.path.basename(gcs_files) for gcs_files in gcs_hook.list_by_timespan(
                            bucket_name=BUCKET_GCS,
                            prefix=prefix_date.strftime('%Y%m%d'),
                            timespan_start=midnight, timespan_end=now,
                            delimiter='.csv')]

它从具有该前缀的存储桶中获取所有文件,但它们不是在两个日期之间创建的。
我从Airflow. www.example.com上阅读了此文档https://airflow.apache.org/docs/apache-airflow-providers-google/stable/_api/airflow/providers/google/cloud/hooks/gcs/index.html#airflow.providers.google.cloud.hooks.gcs.GCSHook.list_by_timespan

34gzjxbg

34gzjxbg1#

将此作为社区wiki发布,以帮助遇到此问题的其他人:
正如@guillaume blaquiere所说的,已经有一篇他亲自为这个问题写的文章了,更多信息请看article

相关问题