我想读取s3对象的n个最新版本,并将它们全部放入map[version,dataframe]结构中。每个s3对象都是一个json行文件,每个文件大约有2GB。据我所知,s3a客户机不支持传递versionid,所以我不能使用这种方法。有人能提出一个有效的替代方法吗?我唯一能想到的就是创建普通的amazons3客户机并使用sdk获取s3对象。不过,我对spark/scala不太熟悉,也不知道如何将其转换为Dataframe。
我想读取s3对象的n个最新版本,并将它们全部放入map[version,dataframe]结构中。每个s3对象都是一个json行文件,每个文件大约有2GB。据我所知,s3a客户机不支持传递versionid,所以我不能使用这种方法。有人能提出一个有效的替代方法吗?我唯一能想到的就是创建普通的amazons3客户机并使用sdk获取s3对象。不过,我对spark/scala不太熟悉,也不知道如何将其转换为Dataframe。
暂无答案!
目前还没有任何答案,快来回答吧!