我正在开发下面的架构:1) flume代理跟踪数据源目录中的文本文件并在kafka主题中移动它们。2) flume代理将文本文件从kafka主题移动到hdfs。我对这个问题有点困惑:我如何确定代理程序\u b将从kafka主题获取数据,以便在hdfs中接收代理程序\u a从数据源目录获取的完全相同的文本文件(相同的行,相同的序列)?。秋千
t1qtbnec1#
flume应该维护输入文件的源偏移量,并按顺序将它们批处理到kafka生产者中。但是,如果kafka主题中有多个分区,就不能保证排序。
1条答案
按热度按时间t1qtbnec1#
flume应该维护输入文件的源偏移量,并按顺序将它们批处理到kafka生产者中。
但是,如果kafka主题中有多个分区,就不能保证排序。