在pubmed数据源中,我需要将输出推送到kafka队列中。每个源都可以看作kafka主题(我了解Kafka的概念,并使用python探索了Kafka)我可以通过fireftp查看pubmed数据。有人能帮助我们前进吗?
nnt7mjpx1#
您需要使用一个从ftp下载数据并将其假脱机到kafka的服务。apache flume正是这样做的。它很容易配置。您可以使用客户源进行ftphttps://github.com/keedio/flume-ftp-source 或者使用cron作业将文件下载到spool目录,并让flume从那里获取文件。Flume有一个非常体面的KafkaFlume,允许连续写Kafka。
1条答案
按热度按时间nnt7mjpx1#
您需要使用一个从ftp下载数据并将其假脱机到kafka的服务。apache flume正是这样做的。它很容易配置。您可以使用客户源进行ftphttps://github.com/keedio/flume-ftp-source 或者使用cron作业将文件下载到spool目录,并让flume从那里获取文件。Flume有一个非常体面的KafkaFlume,允许连续写Kafka。