我在做大数据项目。我们使用flume将文件从sftp下载到hdfs。然后,我们配置了3个代理。他们从同一个来源阅读。因此,我们将3个重复的文件放入hdfs,这是不好的。然而,我们必须只有一个文件。但是,我们需要对处理过的文件保持可跟踪性,并管理代理之间的并发性。例如,我们有3种主剂a1、a2和a3。如果代理a2处理或正在处理文件.csv。其他人将不处理它,而是查找未处理的文件。因此,每个文件只能由一个代理处理。有没有人从事过类似的工作?
nxowjjhe1#
使用负载平衡接收器处理器,可以有一个源和3个接收器。
1条答案
按热度按时间nxowjjhe1#
使用负载平衡接收器处理器,可以有一个源和3个接收器。