hadoop—在s3中监视文件并将特定路径发送到程序

z6psavjg  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(371)

我是s3桶处理的新手。我运行在ec2insctance中运行的配置单元脚本,其结果以.csv文件的形式保存在各自的文件夹中,并根据s3中的脚本进行保存。现在我的要求是,我必须有一个文件监视,以便在s3中的每个文件夹中都可以看到一个新的.csv文件被覆盖,并将这些.csv文件的完整路径发送到我的python程序,调用该程序运行并将output.csv保存在同一个文件夹中。如果有人能提出一些方法,以便我可以选择并实现它,那将非常有用。

mgdq6dx1

mgdq6dx11#

您可以使用spark streaming来监视目录,在添加新条目时启动工作。需要你一直运行一个Spark束。
您可以将s3本身设置为通过s3事件通知向其队列服务或aws lambda发送事件。
选项2将是最低的成本和最可靠的

相关问题