如果我们要用hadoop和solr做一个搜索引擎,nutch的角色是什么?

p5fdfcr1  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(329)

我想做一个搜索引擎。在其中我想抓取一些网站,并存储在hadoop的索引和信息。然后使用solr搜索。但我面临很多问题。如果在google上搜索,那么不同的人会给出不同的建议和不同的配置方式来设置基于hadoop的搜索引擎。以下是我的一些问题:
1) 爬行将如何进行?有没有用nutch来完成爬行?如果是,那么hadoop和nutch是如何相互通信的呢?
2) solr有什么用?如果nutch完成了爬网并将它们的爬网索引和信息存储到hadoop中,那么solr的作用是什么?
3) 我们可以用solr和nutch搜索吗?如果是,那么他们将在哪里保存他们的爬网索引?
4) solr如何与hadoop通信?
5) 请解释我一个一个步骤,如果可能的话,我如何爬网一些网站,并保存到数据库(hadoop或任何其他)的信息,然后做搜索。
我真的被这个困住了。任何帮助都将不胜感激。
事先非常感谢。:)
请帮我解决我的大问题

aiqt4smr

aiqt4smr1#

我们使用nutch作为webcrawler和solr在一些生产环境中进行搜索。所以我希望我能给你一些关于3)的信息。
这是怎么回事?nutch有自己的爬行数据库和一些开始爬行的网站。它有一些插件,你可以配置不同的东西,如pdf爬行,哪些领域将提取的html网站等。爬行时,nutch存储从网站中提取的所有链接,并将在下一个周期中跟踪它们。所有爬网结果都将存储在爬网数据库中。简而言之,您可以配置一个时间间隔,在这个时间间隔内,爬网结果将过时,爬网程序从定义的开始站点开始。
crawl db中的结果将与solr索引同步。所以你在搜索solr索引。nutch只是从网站上获取数据并提供给solr。

相关问题