spark—将多个版本的s3对象读入Dataframe的有效方法

ddarikpa  于 2021-07-14  发布在  Java
关注(0)|答案(0)|浏览(154)

我想读取s3对象的n个最新版本,并将它们全部放入map[version,dataframe]结构中。每个s3对象都是一个json行文件,每个文件大约有2GB。据我所知,s3a客户机不支持传递versionid,所以我不能使用这种方法。有人能提出一个有效的替代方法吗?我唯一能想到的就是创建普通的amazons3客户机并使用sdk获取s3对象。不过,我对spark/scala不太熟悉,也不知道如何将其转换为Dataframe。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题