我们正在以目录顺序保存tweets,如/user/flume/2016/06/28/13/flumedata。但每小时它会创建100多个flumedata文件 TwitterAgent.sinks.HDFS.hdfs.rollSize = 52428800 (50 mb)
同样的事情又发生了。在那之后,我也尝试更改rollcount参数,但没有起作用。如何设置参数以每小时获得一个flumedata文件。
我们正在以目录顺序保存tweets,如/user/flume/2016/06/28/13/flumedata。但每小时它会创建100多个flumedata文件 TwitterAgent.sinks.HDFS.hdfs.rollSize = 52428800 (50 mb)
同样的事情又发生了。在那之后,我也尝试更改rollcount参数,但没有起作用。如何设置参数以每小时获得一个flumedata文件。
3条答案
按热度按时间lokaqttq1#
那怎么办
rollInterval
? 你把它调零了吗。如果是的话,那么问题可能是别的。如果rollInterval
如果设置为某个值,它将覆盖rollSize
以及rollCount
价值观。文件旋转可能在文件大小达到最大值之前发生rollSize
价值观。另外,检查您设置的hdfs块大小。如果设置为,值太小甚至可能导致文件滚动。试试这个-
cl25kdpy2#
ercv8c1e3#
我通过将rollinterval=3600 rollcount=0和batchsize=100 flume.conf参数设置为@vkgade suggest来解决这个问题