我想在使用spark批处理应用程序从awss3读取输入数据时读取每个文件的上次修改/到达时间。显示上次修改时间的图像
mepcadol1#
我有两个选择:第一个选项是使用awsdk获取最后修改的文件名(https://medium.com/faun/identifying-the-modified-or-newly-added-files-in-s3-11b577774729)在你开始工作之前。第二种选择是使用结构化流媒体。不幸的是,结构化流只能处理新文件而不能处理修改过的文件。一个简单的解决方法是只添加一个新文件而不是修改您的文件(但这可能是不可能的,因为您的用例…)
1条答案
按热度按时间mepcadol1#
我有两个选择:
第一个选项是使用awsdk获取最后修改的文件名(https://medium.com/faun/identifying-the-modified-or-newly-added-files-in-s3-11b577774729)在你开始工作之前。
第二种选择是使用结构化流媒体。不幸的是,结构化流只能处理新文件而不能处理修改过的文件。一个简单的解决方法是只添加一个新文件而不是修改您的文件(但这可能是不可能的,因为您的用例…)