多个文件?

2cmtqfgy  于 2021-06-04  发布在  Flume
关注(0)|答案(1)|浏览(269)

FlumehdfsFlume配置如下:

tier1.sinks.sink1.hdfs.path = /project/mgd/ 
tier1.sinks.sink1.hdfs.filePrefix = EMA_LOG%Y%m%d 
tier1.sinks.sink1.hdfs.rollInterval = 86400 

# tier1.sinks.sink1.hdfs.rollInterval = 3600

tier1.sinks.sink1.hdfs.fileSuffix = .json 
tier1.sinks.sink1.hdfs.writeFormat = Text 
tier1.sinks.sink1.hdfs.rollSize = 0 
tier1.sinks.sink1.hdfs.rollCount = 0 
tier1.sinks.sink1.hdfs.fileType = DataStream 
tier1.sinks.sink1.channel = channel1

每天生成三个hdfs文件(rollinterval=86400)。这是群集上配置的flume代理数的结果,还是配置为该特定flume代理源的kafka主题分区数的结果?对把这些文件合并成一个有什么建议吗?

cvxl0en2

cvxl0en21#

如果您运行三个flume代理,那么它将创建3个文件,如果您只需要一个文件,那么您只能运行一个flume代理。或者在它创建3个文件之后,您需要自己合并这些文件,在flume外部。

相关问题