我有一个hadoop集群和apacheflume用于从twitter到hdfs的数据集成,它默认按时间顺序获取数据,就像最新的tweet将首先获取一样,现在我有了usecase从twitter获取特定时期的特定数据,比如2013年2月。请让我知道有任何配置或属性在Flume或推特处理需要设置。提前谢谢。
5lhxktic1#
您可能需要为flume使用自定义源。http://blog.cloudera.com/blog/2012/10/analyzing-twitter-data-with-hadoop-part-2-gathering-data-with-flume/上面链接中提到的twittersource将帮助您根据关键字获取twitter数据。
1条答案
按热度按时间5lhxktic1#
您可能需要为flume使用自定义源。
http://blog.cloudera.com/blog/2012/10/analyzing-twitter-data-with-hadoop-part-2-gathering-data-with-flume/
上面链接中提到的twittersource将帮助您根据关键字获取twitter数据。