如何在使用spark batch应用程序从aws s3读取输入数据时读取每个文件的上次修改/到达时间

xkftehaa  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(282)

我想在使用spark批处理应用程序从awss3读取输入数据时读取每个文件的上次修改/到达时间。
显示上次修改时间的图像

mepcadol

mepcadol1#

我有两个选择:
第一个选项是使用awsdk获取最后修改的文件名(https://medium.com/faun/identifying-the-modified-or-newly-added-files-in-s3-11b577774729)在你开始工作之前。
第二种选择是使用结构化流媒体。不幸的是,结构化流只能处理新文件而不能处理修改过的文件。一个简单的解决方法是只添加一个新文件而不是修改您的文件(但这可能是不可能的,因为您的用例…)

相关问题