如何使用apacheflume过滤多源数据?

xxhby3vn  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(367)

我正在使用flume来处理多个源数据并存储在hdfs中,但是我不知道在存储到hdfs之前如何过滤数据。

1wnzp6jl

1wnzp6jl1#

您有两种选择:
使用Flume拦截器,在这里检查答案。
使用基于流的解决方案(apache spark、apache heron/storm)过滤记录,然后将其存储在hdfs中,
第二个选项使您可以更灵活地编写不同类型的流模式。如果有更多查询,请添加注解。

相关问题