我对所有这些术语都不熟悉,给了我一些时间去理解。但我有一些困惑。如果我错了,请纠正我。
nutch:它是用来抓取网页的,用它我们可以抓取网页。我们可以把这些网页存储在数据库的某个地方。
solr:solr可以用来索引apachenutch爬网的网页。它有助于搜索索引网页。
hbase:它被用作与hadoop交互的接口。它有助于从hdfs实时获取数据。它为交互提供了简单的sql类型接口。
hadoop:它提供了两个功能:一个是hdfs(hadoop数据文件系统),另一个是来自google算法的map-reduce功能。主要用于离线数据备份等。
哥拉和Zookeeper:我不确定。
混淆:1)。hbase是一个键值对db还是仅仅是hadoop的一个接口?或者我应该问,hbase没有hadoop还能存在吗?如果是的话,你能再解释一下它的用法吗。
2). 使用apachenutch爬行数据而不索引到solr有什么用吗?
3). 为了运行apachenutch,我们需要hbase和hadoop吗?如果没有,没有它我们怎么办?
4). hadoop是hbase的一部分吗?
1条答案
按热度按时间mhd8tkvw1#
下面是对hbase和hadoop的简短讨论:hbase和hadoop/hdfs之间的区别
因为hbase是在hadoop之上构建的,没有hadoop你就不能真正拥有hbase。
是的,你可以不用solr跑nutch;然而,似乎没有太多的用例,更不用说野外的活生生的例子了。
是的,你可以不用hadoop来运行nutch,但是现实世界中似乎没有太多这样做的例子。
是的,hadoop是hbase的一部分,因为没有hadoop就没有hbase,但是hadoop当然也用于其他事情。
zookeeper用于hadoop堆栈工作流中的配置、命名、同步等。gora是一个内存管理/持久性框架,构建在hadoop之上。