nutch无法找到此类网站的链接

uoifb46i  于 2021-06-08  发布在  Hbase
关注(0)|答案(1)|浏览(384)

我是一个网络爬行的初学者,我曾尝试过静态网络爬虫4j。
现在,我想尝试爬网这个网站(https://weedmaps.com/brands)通过nutch+hbase+solr,但我不能再进一步了。
我尝试过其他网站,如http://sports.sina.com.cn,我实际上可以将信息索引到solr。
我想知道https://weedmaps.com/brands,源页面没有显式输出链接,如何对其进行爬网?有人能推荐这些工具或物品吗?或者解释为什么nutch不起作用?
非常感谢。

jslywgbw

jslywgbw1#

问题是https://weedmaps.com/brands 这个页面是使用angularjs构建的,这意味着基本上是使用javascript呈现的,而实际呈现的html非常糟糕。如果您尝试使用curl,您可以看到源代码。默认情况下,nutch只依赖服务器发送的html,不做任何客户端处理(比如解释js代码)。
你可以看看https://github.com/apache/nutch/tree/master/src/plugin/protocol-selenium 然后配置协议。在这种情况下,nutch将通过selenium(selenium能够解释javascript)来传输html,然后将结束的html发送到正常的nutch管道。

相关问题