如何在hdfs中存储特定的网站tweet?假设一个网站www.d.com 我想收集这个网站的所有用户的tweet并存储到hdfs或hive中。flume和sqoop也有助于存储数据。所以有人请告诉我flume和sqoop如何在hdfs中存储tweet吗?
zf2sa74q1#
sqoop并不是为这个目的而设计的。Flume就是用来满足这种需要的。您可以编写自定义的flume源代码,将推送并将其转储到hdfs中。看看这个例子。它展示了如何使用flume从twitter流api收集数据,并将其转发给hdfs。你可以在官方文件中找到更多。
1条答案
按热度按时间zf2sa74q1#
sqoop并不是为这个目的而设计的。Flume就是用来满足这种需要的。您可以编写自定义的flume源代码,将推送并将其转储到hdfs中。看看这个例子。它展示了如何使用flume从twitter流api收集数据,并将其转发给hdfs。
你可以在官方文件中找到更多。