nutch无法找到此类网站的链接

uoifb46i 于 2021-06-08 发布在 Hbase

关注(0)|答案(1)|浏览(384)

我是一个网络爬行的初学者，我曾尝试过静态网络爬虫4j。
现在，我想尝试爬网这个网站(https://weedmaps.com/brands)通过nutch+hbase+solr，但我不能再进一步了。
我尝试过其他网站，如http://sports.sina.com.cn，我实际上可以将信息索引到solr。
我想知道https://weedmaps.com/brands，源页面没有显式输出链接，如何对其进行爬网？有人能推荐这些工具或物品吗？或者解释为什么nutch不起作用？
非常感谢。

hbase solr nutch web-crawler

来源：https://stackoverflow.com/questions/48760311/nutch-cannot-find-out-link-for-this-kind-of-website

1条答案

按热度按时间

jslywgbw1#

问题是https://weedmaps.com/brands 这个页面是使用angularjs构建的，这意味着基本上是使用javascript呈现的，而实际呈现的html非常糟糕。如果您尝试使用curl，您可以看到源代码。默认情况下，nutch只依赖服务器发送的html，不做任何客户端处理（比如解释js代码）。
你可以看看https://github.com/apache/nutch/tree/master/src/plugin/protocol-selenium 然后配置协议。在这种情况下，nutch将通过selenium（selenium能够解释javascript）来传输html，然后将结束的html发送到正常的nutch管道。

赞(0）回复(0）举报 2021-06-08

我来回答

nutch无法找到此类网站的链接

1条答案

相关问题

热门标签

最新问答