spark—将多个版本的s3对象读入Dataframe的有效方法

ddarikpa 于 2021-07-14 发布在 Java

关注(0)|答案(0)|浏览(154)

我想读取s3对象的n个最新版本，并将它们全部放入map[version，dataframe]结构中。每个s3对象都是一个json行文件，每个文件大约有2GB。据我所知，s3a客户机不支持传递versionid，所以我不能使用这种方法。有人能提出一个有效的替代方法吗？我唯一能想到的就是创建普通的amazons3客户机并使用sdk获取s3对象。不过，我对spark/scala不太熟悉，也不知道如何将其转换为Dataframe。

scala apache-spark apache-spark-sql amazon-s3

来源：https://stackoverflow.com/questions/54785617/spark-efficient-way-of-reading-multiple-versions-of-s3-object-into-dataframe

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

spark—将多个版本的s3对象读入Dataframe的有效方法

暂无答案！

相关问题

热门标签

最新问答