我是一个网络爬行的初学者,我曾尝试过静态网络爬虫4j。现在,我想尝试爬网这个网站(https://weedmaps.com/brands)通过nutch+hbase+solr,但我不能再进一步了。我尝试过其他网站,如http://sports.sina.com.cn,我实际上可以将信息索引到solr。我想知道https://weedmaps.com/brands,源页面没有显式输出链接,如何对其进行爬网?有人能推荐这些工具或物品吗?或者解释为什么nutch不起作用?非常感谢。
jslywgbw1#
问题是https://weedmaps.com/brands 这个页面是使用angularjs构建的,这意味着基本上是使用javascript呈现的,而实际呈现的html非常糟糕。如果您尝试使用curl,您可以看到源代码。默认情况下,nutch只依赖服务器发送的html,不做任何客户端处理(比如解释js代码)。你可以看看https://github.com/apache/nutch/tree/master/src/plugin/protocol-selenium 然后配置协议。在这种情况下,nutch将通过selenium(selenium能够解释javascript)来传输html,然后将结束的html发送到正常的nutch管道。
1条答案
按热度按时间jslywgbw1#
问题是https://weedmaps.com/brands 这个页面是使用angularjs构建的,这意味着基本上是使用javascript呈现的,而实际呈现的html非常糟糕。如果您尝试使用curl,您可以看到源代码。默认情况下,nutch只依赖服务器发送的html,不做任何客户端处理(比如解释js代码)。
你可以看看https://github.com/apache/nutch/tree/master/src/plugin/protocol-selenium 然后配置协议。在这种情况下,nutch将通过selenium(selenium能够解释javascript)来传输html,然后将结束的html发送到正常的nutch管道。