我有一个文件夹在远程位置和一些其他进程一直把文件放在它。我正在编写一个应用程序来下载每个新文件并对其进行处理。现在我正在下载文件 rsync 在上个小时创建并处理它。但我需要一个解决方案,我想把新文件的名称放到一个队列中,然后我的消费者将从队列中获取名称,下载文件并进行处理。在这个解决方案中,我可以运行多个生产者,只在kafka队列上进行投票。
rsync
inb24sb21#
你考虑过使用Kafka连接吗?有一些连接器可以完全满足您的需要:监视目录中的新文件,并将它们的内容逐个记录直接放到kafka中。例如:https://github.com/jcustenborder/kafka-connect-spooldir.或者更简单的连接器,只放置新的/修改的元数据文件:https://github.com/datareply/kafka-connect-directory-source
1条答案
按热度按时间inb24sb21#
你考虑过使用Kafka连接吗?有一些连接器可以完全满足您的需要:监视目录中的新文件,并将它们的内容逐个记录直接放到kafka中。例如:https://github.com/jcustenborder/kafka-connect-spooldir.
或者更简单的连接器,只放置新的/修改的元数据文件:https://github.com/datareply/kafka-connect-directory-source