请检查此链接https://maroof.sa/businesses。
这是一个网站的链接,我想从中提取链接。
例如,如果你向下滚动,你会发现一个商店的名称“Marwa商店”,如果你点击这张卡,这将重定向到商店页面
现在我需要报废的页面中的所有链接“https://maroof.sa/businesses“商店
经过检查,我发现它被藏在
我已经成功提取商店名称,但我找不到链接
thanks in advance
import time
from selenium.webdriver.support.select import Select
from selenium.webdriver.common.by import By
from selenium import webdriver
from scrapy import Selector
import csv
driver = webdriver.Chrome()
driver.get(url="https://maroof.sa/businesses")
html = driver.page_source
names = driver.find_elements(By.CSS_SELECTOR , 'div.storeCard')
字符串
1条答案
按热度按时间fhg3lkii1#
从card info中获取业务细节是不可能的,但是,它可以通过从url部分为
business/search
的请求中获取数据来构建。业务链接可以通过模式
{url}/details/{id}
构建,其中id可以从响应json对象items
获取。您可以使用Chrome开发工具协议获得所需的响应,该协议现已在Selenium中提供。
此外,网站有反报废机制,它不加载每次为我,所以你需要使用代理/未检测到的 selenium /等我添加了一些隐形Chrome选项,但它并没有帮助每次避免机器人检测机制(网站认为,我是一个机器人,即使在普通浏览器,所以我认为他们的机器人检测是坏的)。
字符串