我需要上传数据,这是在一个网络链接,例如一个“博客”到hdfs目前。
现在,我正在寻找实现这一目标的方法,可以找到以下链接:
http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/
但是通过阅读flume文档,我不清楚如何设置flume源代码来指向博客内容所在的网站。
根据我对fluem文档的理解,需要有一个web服务器,我需要在其中部署一个应用程序,然后将生成web日志,这些日志将由flume传输到hdfs。
但是我不想要web服务器日志,实际上我正在寻找博客内容(即博客上的所有数据+评论,如果有的话),这是一个非结构化的数据,然后我考虑使用java map reduce进一步处理这些数据。
但我不确定我的方向是否正确。
我也经历了宾塔霍。但不清楚我是否可以使用pdi从网站获取数据并上传到hdfs。
上面的任何信息都非常有用。
提前谢谢。
1条答案
按热度按时间qybjjes11#
flume可以拉取数据(比如twitter),也可以将数据推送到flume,比如使用flumeappender的服务器日志。
将博客数据导入hdfs
a) blogger应用程序应该将数据推送到hdfs,比如flumeappender。必须对blogger应用程序进行更改,但大多数情况下并非如此。
或
b) flume可以使用适当的api提取blog数据,就像twitter一样。blogger提供了一个api来提取代码,可以在flume源代码中使用。cloudera博客引用了flume代码来从twitter获取数据。