我正在使用flume来处理多个源数据并存储在hdfs中,但是我不知道在存储到hdfs之前如何过滤数据。
1wnzp6jl1#
您有两种选择:使用Flume拦截器,在这里检查答案。使用基于流的解决方案(apache spark、apache heron/storm)过滤记录,然后将其存储在hdfs中,第二个选项使您可以更灵活地编写不同类型的流模式。如果有更多查询,请添加注解。
1条答案
按热度按时间1wnzp6jl1#
您有两种选择:
使用Flume拦截器,在这里检查答案。
使用基于流的解决方案(apache spark、apache heron/storm)过滤记录,然后将其存储在hdfs中,
第二个选项使您可以更灵活地编写不同类型的流模式。如果有更多查询,请添加注解。