我正在使用 flume
导入twitter数据。
我把下面的一行添加到我的 flume
形态: TwitterAgent.sources.Twitter.keywords = hadoop, big data, analytics, bigdata, cloudera, data science, data scientiest, business intelligence, mapreduce, data warehouse, data warehousing, mahout, hbase, nosql, newsql, businessintelligence, cloudcomputing
但是 flume
忽略这条线! Flume
总是从twitter导入所有数据,而不是通过我们的关键字指定和过滤。
我怎样才能让过滤工作?
1条答案
按热度按时间t8e9dugd1#
点击此链接:https://github.com/cloudera/cdh-twitter-example/tree/master/flume-sources
使用此类:
com.cloudera.flume.source.twittersource
顺便说一下,重新编译jar,不要使用预构建的版本:)
编辑:要重新编译,请遵循链接的第1节:
要从git存储库的根目录构建flume sources jar,请执行以下操作:
这将在目标目录中生成一个名为flume-sources-1.0-snapshot.jar的文件。