使用flume拦截器逐行过滤文件

hmtdttj4  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(421)

我正在尝试配置从.csv或.xl3读取的flume代理。文件示例:

  1. ClientA ClientB Start-time End-time Duration Status
  2. 35862515 36958452 16/01/2017 16/01/2017 10 good
  3. 32456988 22583694 16/01/2017 16/01/2017 05 good
  4. 35968478 36985724 16/01/2017 16/01/2017
  5. 32456988 22583694 16/01/2017 16/01/2017 01 good

我要代理逐行过滤文件。如果持续时间不为空,则事件将发送到hdfs/usr/admin/good\u call,否则,事件将发送到另一个路径/usr/admin/bad\u call。
如何使用flume配置,拦截器

tpgth1q7

tpgth1q71#

您可以使用taildir sink和regex提取器拦截器。作为regex提取器的结果,对于“good”和“bad”行,您将有不同的标题。最后,添加多路复用通道选择器,它将根据报头的值来决定向何处发送事件。

相关问题