如何配置ApacheNutch2.3来支持robots元标记?

wpcxdonn  于 2021-06-09  发布在  Hbase
关注(0)|答案(1)|浏览(428)

我在nutch2.3中安装了hbase作为后端,并运行了一个爬网,其中包括solr索引和solr重复数据消除。
我最近注意到solr索引包含不需要的网页。
为了让nutch忽略这些网页,我设置了以下元标记:

<meta name="robots" content="noindex,follow">

我访问了ApacheNutch官方网站,它解释了以下内容:
如果您没有在服务器上编辑/robots.txt文件的权限,您仍然可以告诉robots不要为页面编制索引或跟踪链接。标准的机制是robots元标记
在网上搜索答案,我发现了一个建议 Protocol.CHECK_ROBOTS 或设置 protocol.plugin.check.robots 作为nutch-site.xml中的属性。这些似乎都不起作用。
目前,nutch2.3忽略了 noindex 规则,因此将内容索引到外部数据存储ie solr。
问题是如何配置nutch2.3来支持robots元标记?
另外,如果nutch2.3以前配置为忽略robot metatag,并且在以前的爬网周期中为该网页编制了索引。如果robots元标记的规则是正确的,这会导致在将来的爬网中从solr索引中删除页面吗?

mbyulnm0

mbyulnm01#

我创建了一个插件来解决ApacheNutch2.3不遵守robots元标记规则的问题 noindex . metarobots插件强制nutch在索引期间丢弃符合条件的文档。这可以防止符合条件的文档被索引到外部数据存储ie solr。
请注意:此插件阻止索引包含元标记规则的文档 noindex ,它不会删除以前索引到外部数据存储的任何文档。
有关说明,请访问此链接

相关问题