我从chrome导出一个书签,想用Scrapy Selector
来获取所有的链接,但是我只能获取部分链接(650个中的250个)
这是我代码
html = r'C:\Users\super\Downloads\Desktop\temp\html\bookmarks_9_13_22.html'
xpath = r'//@href'
with open(html, 'rb') as f:
source = f.read()
target = Selector(text=source).xpath(xpath).getall()
print(len(target))
我做错了什么吗?我对Scrapy和XPath还不熟悉。
这里是bookmark (html file)
1条答案
按热度按时间z3yyvxxp1#
似乎是文件中未闭合的
<DT>
标记导致了此问题。解决方案:删除
<DT>
标记