我有一个生成文件的远程服务器。服务器每15分钟将文件推送到hadoop集群。这些文件存储在特定的目录中。我们使用flume从本地目录读取文件并将其发送到hdfs。但是,spooldir适合处理数据。问题是文件写入目录时flume关闭处理。我不知道怎么做 flume spooldir wait 对于一个完整的文件写入,然后处理它。或者如何使用脚本shell或处理器阻止读取文件,直到文件完全写入。有人能帮我!
flume spooldir wait
ryevplcw1#
设置假脱机源的polldelay属性。spool dir source在给定目录中以特定间隔轮询新文件。默认值是500ms。这对于许多系统来说太快了,所以您应该相应地配置它。
1条答案
按热度按时间ryevplcw1#
设置假脱机源的polldelay属性。spool dir source在给定目录中以特定间隔轮询新文件。默认值是500ms。这对于许多系统来说太快了,所以您应该相应地配置它。