我试图从网站https://www.moparpartsgiant.com/使用产品编号提取一些信息。列出其中的一些['5175788 AA','82214506 AB','UN 051 D1 AA']。搜索响应是.html文件与此产品,他们有混乱的url,所以我不能运行蜘蛛与改变URL的一部分。enter image description here我试图运行爬行通过scrapy。FormRequest:
def parse(self, response,**kwargs):
yield scrapy.FormRequest.from_response(response,
formdata={'input_name': '5175788AA'},
callback=self.parse_product
)
但是我不能设置input_name
,因为form
input
没有标记参数name
。enter image description here
我如何使用scrapy.FormRequest运行搜索?或者我如何模拟执行搜索的request
?
提前感谢您的回答!
1条答案
按热度按时间to94eoyn1#
使用上述关键字生成的url沿着信息不是动态的,但是点击搜索选项是动态的。如果你手动输入关键字搜索,那么你会得到用于搜索的url。所以你可以提供所有的url,并且可以抓取所需的数据。同样的事情你可以使用selenium/playwright自动完成,这是耗时和更复杂的,但可能不是一个容易的任务与scrapy
工作代码及示例:
输出: