如何配置ApacheNutch2.3来支持robots元标记？

wpcxdonn 于 2021-06-09 发布在 Hbase

关注(0)|答案(1)|浏览(428)

我在nutch2.3中安装了hbase作为后端，并运行了一个爬网，其中包括solr索引和solr重复数据消除。
我最近注意到solr索引包含不需要的网页。
为了让nutch忽略这些网页，我设置了以下元标记：

<meta name="robots" content="noindex,follow">

我访问了ApacheNutch官方网站，它解释了以下内容：
如果您没有在服务器上编辑/robots.txt文件的权限，您仍然可以告诉robots不要为页面编制索引或跟踪链接。标准的机制是robots元标记
在网上搜索答案，我发现了一个建议 Protocol.CHECK_ROBOTS 或设置 protocol.plugin.check.robots 作为nutch-site.xml中的属性。这些似乎都不起作用。
目前，nutch2.3忽略了 noindex 规则，因此将内容索引到外部数据存储ie solr。
问题是如何配置nutch2.3来支持robots元标记？
另外，如果nutch2.3以前配置为忽略robot metatag，并且在以前的爬网周期中为该网页编制了索引。如果robots元标记的规则是正确的，这会导致在将来的爬网中从solr索引中删除页面吗？

hbase solr nutch robots.txt metatag

来源：https://stackoverflow.com/questions/35227917/how-do-you-configure-apache-nutch-2-3-to-honour-robots-metatag

1条答案

按热度按时间

mbyulnm01#

我创建了一个插件来解决ApacheNutch2.3不遵守robots元标记规则的问题 noindex . metarobots插件强制nutch在索引期间丢弃符合条件的文档。这可以防止符合条件的文档被索引到外部数据存储ie solr。
请注意：此插件阻止索引包含元标记规则的文档 noindex ，它不会删除以前索引到外部数据存储的任何文档。
有关说明，请访问此链接

赞(0）回复(0）举报 2021-06-09

我来回答

如何配置ApacheNutch2.3来支持robots元标记？

1条答案

相关问题

热门标签

最新问答