关闭。这个问题是基于意见的。它目前不接受答案。**想改进这个问题吗?**更新这个问题,这样就可以通过编辑这篇文章用事实和引文来回答。
四年前关门了。改进这个问题我正在使用hadoop做一个项目,它使用selenium从各种twitter帐户收集tweet。我希望使用hadoop来减少收集时间,而不是一个接一个地执行这些操作。这听起来可行吗?这是hadoop的一个很好的用法吗?
q5iwbnjs1#
twitter有一个流式api,你可以使用它来获取恒定的tweet流,并将它们加载到hdfs中,然后使用任何处理框架(hive、storm、spark)来理解这些tweet。如果您不想使用twitterapi编写代码,那么可以使用apachenifi或flume为您生成tweet并将其加载到hdfs中。https://nifi.apache.org/docs/nifi-docs/components/org.apache.nifi.processors.twitter.gettwitter/http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/
1条答案
按热度按时间q5iwbnjs1#
twitter有一个流式api,你可以使用它来获取恒定的tweet流,并将它们加载到hdfs中,然后使用任何处理框架(hive、storm、spark)来理解这些tweet。如果您不想使用twitterapi编写代码,那么可以使用apachenifi或flume为您生成tweet并将其加载到hdfs中。
https://nifi.apache.org/docs/nifi-docs/components/org.apache.nifi.processors.twitter.gettwitter/
http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/