将数据从网站加载到hdfs

f0brbegy 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(386)

我需要上传数据，这是在一个网络链接，例如一个“博客”到hdfs目前。
现在，我正在寻找实现这一目标的方法，可以找到以下链接：
http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/
但是通过阅读flume文档，我不清楚如何设置flume源代码来指向博客内容所在的网站。
根据我对fluem文档的理解，需要有一个web服务器，我需要在其中部署一个应用程序，然后将生成web日志，这些日志将由flume传输到hdfs。
但是我不想要web服务器日志，实际上我正在寻找博客内容（即博客上的所有数据+评论，如果有的话），这是一个非结构化的数据，然后我考虑使用java map reduce进一步处理这些数据。
但我不确定我的方向是否正确。
我也经历了宾塔霍。但不清楚我是否可以使用pdi从网站获取数据并上传到hdfs。
上面的任何信息都非常有用。
提前谢谢。

hadoop

来源：https://stackoverflow.com/questions/15943159/loading-data-from-website-to-hdfs

1条答案

按热度按时间

qybjjes11#

flume可以拉取数据（比如twitter），也可以将数据推送到flume，比如使用flumeappender的服务器日志。
将博客数据导入hdfs
a） blogger应用程序应该将数据推送到hdfs，比如flumeappender。必须对blogger应用程序进行更改，但大多数情况下并非如此。
或
b） flume可以使用适当的api提取blog数据，就像twitter一样。blogger提供了一个api来提取代码，可以在flume源代码中使用。cloudera博客引用了flume代码来从twitter获取数据。

赞(0）回复(0）举报 2021-06-03

我来回答

将数据从网站加载到hdfs

1条答案

相关问题

热门标签

最新问答