我在nutch2.3中安装了hbase作为后端,并运行了一个爬网,其中包括solr索引和solr重复数据消除。
我最近注意到solr索引包含不需要的网页。
为了让nutch忽略这些网页,我设置了以下元标记:
<meta name="robots" content="noindex,follow">
我访问了ApacheNutch官方网站,它解释了以下内容:
如果您没有在服务器上编辑/robots.txt文件的权限,您仍然可以告诉robots不要为页面编制索引或跟踪链接。标准的机制是robots元标记
在网上搜索答案,我发现了一个建议 Protocol.CHECK_ROBOTS
或设置 protocol.plugin.check.robots
作为nutch-site.xml中的属性。这些似乎都不起作用。
目前,nutch2.3忽略了 noindex
规则,因此将内容索引到外部数据存储ie solr。
问题是如何配置nutch2.3来支持robots元标记?
另外,如果nutch2.3以前配置为忽略robot metatag,并且在以前的爬网周期中为该网页编制了索引。如果robots元标记的规则是正确的,这会导致在将来的爬网中从solr索引中删除页面吗?
1条答案
按热度按时间mbyulnm01#
我创建了一个插件来解决ApacheNutch2.3不遵守robots元标记规则的问题
noindex
. metarobots插件强制nutch在索引期间丢弃符合条件的文档。这可以防止符合条件的文档被索引到外部数据存储ie solr。请注意:此插件阻止索引包含元标记规则的文档
noindex
,它不会删除以前索引到外部数据存储的任何文档。有关说明,请访问此链接