如何在使用Scrapy爬行时处理Xpath中的不同行？

pvabu6sv 于 2022-11-09 发布在其他

关注(0)|答案(1)|浏览(173)

我正在尝试使用Scrapy抓取一个网站的产品链接。我已经找到了如何获取所有子类别的链接，但现在当我进入显示产品的页面时，我找不到使用Xpath提取所有元素的解决方案。最初的问题是如何处理Xpath / Scrapy中的不同行号以获取所有项目？
目标页面示例：https://www.rimi.lt/e-parduotuve/lt/produktai/veganams-ir-vegetarams/c/SH-77
我先在Scrapy Shell上测试所有东西
获取产品卡的Xpath @href（此路径使用Chrome中的复制完整Xpath选项）：response.xpath('/html/body/main/section/div/div/div/div/div/div/ul/li[1]/div/a/@href').extract()下一个项目Xpath将具有递增的li[1]值：示例：

//*[@id="main"]/section/div[1]/div/div[2]/div[1]/div/div[2]/ul/li[3]/div/a
                                                                  ^
//*[@id="main"]/section/div[1]/div/div[2]/div[1]/div/div[2]/ul/li[2]/div/a
                                                                  ^

在www.example.com文件中声明xpaths的函数mySpider.py：

def __init__(self):
        self.declare_xpath()

        #All the XPaths the spider needs to know go here
    def declare_xpath(self):
        self.getAllCategoriesXpath = ""
        self.getAllSubCategoriesXpath = ""
        self.getAllItemsXpath = '/html/body/main/nav[1]/div/ul/li[1]/a/@href'
        self.TitleXpath  = ""
        self.CategoryXpath = ""
        self.PriceXpath = ""
        self.FeaturesXpath = ""
        self.DescriptionXpath = ""
        self.SpecsXpath = ""

scrapy

来源：https://stackoverflow.com/questions/71510191/how-to-deal-with-different-rows-in-xpath-while-crawling-with-scrapy

1条答案

按热度按时间

vvppvyoh1#

在处理XPath和不同的行号时，忽略[x]元素，只放置不带[x]的项。
示例：

//*

[@id="main"]/section/div[1]/div/div[2]/div[1]/div/div[2]/ul/li[3]/div/a/@href
                                                           ^^^^^^

如何获取所有元素：

//*[@id="main"]/section/div[1]/div/div[2]/div[1]/div/div[2]/ul/li/div/a/@href
                                                              ^^^

赞(0）回复(0）举报 2022-11-09

我来回答

如何在使用Scrapy爬行时处理Xpath中的不同行？

1条答案

相关问题

热门标签

最新问答