我得在一些新闻网站上爬行。我已经用hadoop2.7.4和hbase集群安装了apachenutch2.3.1。我必须通过Solr6.6.1提供搜索。在爬过一些网站后,我观察到nutch会在一个页面上抓取所有内容。在新闻网站中,有包含最新或热门新闻等的侧边栏,这些侧边栏内容会随着时间的推移而变化。有没有办法让努奇抓取主要的故事内容,避免这样的侧栏。
lsmepo6l1#
好吧,因为您使用的是nutch2.x,所以这有点困难,对于nutch1.x,您可以使用tika上提供的boilerpipe实现。但不幸的是,它还没有移植到2.x分支。
1条答案
按热度按时间lsmepo6l1#
好吧,因为您使用的是nutch2.x,所以这有点困难,对于nutch1.x,您可以使用tika上提供的boilerpipe实现。但不幸的是,它还没有移植到2.x分支。