如何使用kafka轮询远程目录中的新文件

mspsb9vt  于 2021-06-07  发布在  Kafka
关注(0)|答案(1)|浏览(424)

我有一个文件夹在远程位置和一些其他进程一直把文件放在它。
我正在编写一个应用程序来下载每个新文件并对其进行处理。
现在我正在下载文件 rsync 在上个小时创建并处理它。
但我需要一个解决方案,我想把新文件的名称放到一个队列中,然后我的消费者将从队列中获取名称,下载文件并进行处理。
在这个解决方案中,我可以运行多个生产者,只在kafka队列上进行投票。

inb24sb2

inb24sb21#

你考虑过使用Kafka连接吗?有一些连接器可以完全满足您的需要:监视目录中的新文件,并将它们的内容逐个记录直接放到kafka中。例如:https://github.com/jcustenborder/kafka-connect-spooldir.
或者更简单的连接器,只放置新的/修改的元数据文件:https://github.com/datareply/kafka-connect-directory-source

相关问题