aws胶水跳过文件夹

6vl6ewon  于 2021-06-26  发布在  Hive
关注(0)|答案(0)|浏览(286)

我有一个进程,将数据存储到s3,转换数据,并将数据转换为parquet,通过红移光谱进行查询。我有一个胶水爬虫来爬网我的数据集,我使用三个分区:年、月、日。我所有的文件都是这样存储的:

<bucket>/<folder>/<folder>/<folder>/year=2018/month=8/day=20

我有从2015年到最后一天的数据,这给了我1300多个分区键。
问题来了。因为几天前我开始从爬虫程序看到这样的信息:

INFO : Folder partition keys do not match table partition keys, skipped folder: <bucket>/<folder>/<folder>/<folder>/year=2018/month=8/

这样做的结果是,2018年8月查询本月时没有返回任何数据,这当然是非常不幸的。
由于我所有的数据都存储在同一个etl进程的同一个结构中,而且在爬网失败之前,进程中没有任何内容,所以我对爬网程序为什么突然开始跳过上个月(month=8)感到非常困惑。对于month=8,我反复检查表分区和文件夹分区之间是否有任何差异,但是我找不到任何差异。
这是一个很长的问题,但是有人知道为什么会发生这种情况吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题