我有一个包含许多日志文件的源目录,我想使用apacheflume来使用这些日志文件并将数据传输到hdfs。我只是想知道flume怎么知道,已经处理的日志文件?有什么配置吗?
qmb5sa221#
您所说的数据摄取类型,即当文件放入目录时使用它们,是通过假脱机目录源实现的。如果您查看文档,您将看到:此源允许您通过将要接收的文件放入磁盘上的“假脱机”目录来接收数据。此源代码将监视指定目录中的新文件,并在新文件出现时解析其中的事件。事件解析逻辑是可插入的将给定文件完全读入通道后,将重命名该文件以指示完成(或者可以选择删除)
1条答案
按热度按时间qmb5sa221#
您所说的数据摄取类型,即当文件放入目录时使用它们,是通过假脱机目录源实现的。如果您查看文档,您将看到:
此源允许您通过将要接收的文件放入磁盘上的“假脱机”目录来接收数据。此源代码将监视指定目录中的新文件,并在新文件出现时解析其中的事件。事件解析逻辑是可插入的将给定文件完全读入通道后,将重命名该文件以指示完成(或者可以选择删除)