FlumehdfsFlume配置如下:
tier1.sinks.sink1.hdfs.path = /project/mgd/
tier1.sinks.sink1.hdfs.filePrefix = EMA_LOG%Y%m%d
tier1.sinks.sink1.hdfs.rollInterval = 86400
# tier1.sinks.sink1.hdfs.rollInterval = 3600
tier1.sinks.sink1.hdfs.fileSuffix = .json
tier1.sinks.sink1.hdfs.writeFormat = Text
tier1.sinks.sink1.hdfs.rollSize = 0
tier1.sinks.sink1.hdfs.rollCount = 0
tier1.sinks.sink1.hdfs.fileType = DataStream
tier1.sinks.sink1.channel = channel1
每天生成三个hdfs文件(rollinterval=86400)。这是群集上配置的flume代理数的结果,还是配置为该特定flume代理源的kafka主题分区数的结果?对把这些文件合并成一个有什么建议吗?
1条答案
按热度按时间cvxl0en21#
如果您运行三个flume代理,那么它将创建3个文件,如果您只需要一个文件,那么您只能运行一个flume代理。或者在它创建3个文件之后,您需要自己合并这些文件,在flume外部。