有人能指导我如何对gelbeseiten分页吗?我在分页部分卡住了。在网络选项卡中,有ajaxsuche选项,但我不知道从这里做什么。感谢您的指导。我的代码如下
import scrapy
from scrapy_selenium import SeleniumRequest
class Data2Spider(scrapy.Spider):
name = 'data2'
def start_requests(self):
yield SeleniumRequest(
url="https://www.gelbeseiten.de/suche/hotels/n%c3%bcrnberg",
callback=self.parse,
)
return super().start_requests()
def parse(self, response):
temp = []
for i in response.xpath("//article/@data-realid").getall():
temp.append(i)
for r in temp:
yield SeleniumRequest(
url=f"https://www.gelbeseiten.de/gsbiz/{r}",
callback=self.parse_data,
)
def parse_data(self, response):
yield {
'URL': response.url,
'Title': response.xpath("//div[@class='a']/h1/text()").get(),
'Phone': response.xpath("//a[@class='nolink-black']/span/text()").get(),
'Fax': response.xpath("//div[@class='mod-Kontaktdaten__list-item contains-icon-fax']/span/text()").get(),
'email': response.xpath("normalize-space(//div[@class='mod-Kontaktdaten__list-item contains-icon-email']/a/text())").get(),
'Website': response.xpath("normalize-space(//div[@class='mod-Kontaktdaten__list-item contains-icon-homepage']/a/text())").get()
}
1条答案
按热度按时间bnl4lu3b1#
我将演示如何使用Requests获取这些酒店的配置文件链接。
终端打印的结果:
例如,该逻辑可以合并到
start_urls()
函数中。对于TQDM,请访问https://pypi.org/project/tqdm/