使用flafka从数据源到hdfs的相同文本文件

v64noz0r  于 2021-06-04  发布在  Kafka
关注(0)|答案(1)|浏览(321)

我正在开发下面的架构:
1) flume代理跟踪数据源目录中的文本文件并在kafka主题中移动它们。
2) flume代理将文本文件从kafka主题移动到hdfs。
我对这个问题有点困惑:
我如何确定代理程序\u b将从kafka主题获取数据,以便在hdfs中接收代理程序\u a从数据源目录获取的完全相同的文本文件(相同的行,相同的序列)?。
秋千

t1qtbnec

t1qtbnec1#

flume应该维护输入文件的源偏移量,并按顺序将它们批处理到kafka生产者中。
但是,如果kafka主题中有多个分区,就不能保证排序。

相关问题