spooldir源停止处理

bihw5rsg  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(287)

我有一个生成文件的远程服务器。服务器每15分钟将文件推送到hadoop集群。这些文件存储在特定的目录中。我们使用flume从本地目录读取文件并将其发送到hdfs。但是,spooldir适合处理数据。
问题是文件写入目录时flume关闭处理。
我不知道怎么做 flume spooldir wait 对于一个完整的文件写入,然后处理它。或者如何使用脚本shell或处理器阻止读取文件,直到文件完全写入。
有人能帮我!

ryevplcw

ryevplcw1#

设置假脱机源的polldelay属性。spool dir source在给定目录中以特定间隔轮询新文件。默认值是500ms。这对于许多系统来说太快了,所以您应该相应地配置它。

相关问题