标签类型a:
<a rel="sponsored" href="https://cheese.example.com/Appenzeller_cheese">Appenzeller</a>
或
<a rel="ugc" href="https://cheese.example.com/Appenzeller_cheese">Appenzeller</a>
和以下值中的一个或多个:
rel="sponsored"
or
rel="ugc"
or
rel="ugc nofollow noreferrer"
显然,Scrapy只支持以下值(只是“nofollow”):
<a rel="nofollow" href="https://cheese.example.com/Appenzeller_cheese">Appenzeller</a>
如何获取其他值(如:ugc、noreferrer和...)的帮助下,如何使用Link Extractors?
1条答案
按热度按时间6ojccjat1#
必须使用
from lxml import etree
库。您无法使用链接提取器执行此操作。
例如:
etree.fromstring(tag)