第一个Python Scrapy网页搜罗器不工作

qvk1mo1f 于 2022-11-09 发布在 Python

关注(0)|答案(1)|浏览(215)

我参加了Data Camp的Python网页抓取课程，并尝试在我自己的环境中运行“capstone”网页抓取器（该课程在一个特殊的浏览器环境中进行）。代码旨在从Data Camp网页上抓取课程的标题和描述。
我已经花了很多时间在这里和那里修修补补，在这一点上，我希望社区可以帮助我。
我尝试运行的代码是：


# Import scrapy

import scrapy

# Import the CrawlerProcess

from scrapy.crawler import CrawlerProcess

# Create the Spider class

class YourSpider(scrapy.Spider):
    name = 'yourspider'

    # start_requests method
    def start_requests(self):
        yield scrapy.Request(url= https://www.datacamp.com, callback = self.parse)

    def parse (self, response):
        # Parser, Maybe this is where my issue lies
        crs_titles = response.xpath('//h4[contains(@class,"block__title")]/text()').extract()
        crs_descrs = response.xpath('//p[contains(@class,"block__description")]/text()').extract()
        for crs_title, crs_descr in zip(crs_titles, crs_descrs):
            dc_dict[crs_title] = crs_descr

# Initialize the dictionary**outside**of the Spider class

dc_dict = dict()

# Run the Spider

process = CrawlerProcess()
process.crawl(YourSpider)
process.start()

# Print a preview of courses

previewCourses(dc_dict)

我得到以下输出：
C：/用户/main.pywww.datacamp.com 语法无效
进程已结束，退出代码为1
我注意到第20行中的parse方法在PyCharm窗口中仍然是灰色的。
任何帮助让代码运行将不胜感激！
谢谢你的好意，

-狼鹰

scrapy

来源：https://stackoverflow.com/questions/71862160/first-python-scrapy-web-scraper-not-working

1条答案

按热度按时间

6yjfywim1#

错误消息在以下行中触发：

yield scrapy.Request(url=https://www.datacamp.com, callback = self.parse)

作为url的输入，您应该输入一个字符串，字符串的开头和结尾都写有'或"。
试试看：

yield scrapy.Request(url='https://www.datacamp.com', callback = self.parse)

如果这是你的完整代码，你还缺少函数previewCourses。检查是否提供给你，或者你自己写一个类似这样的代码：

def previewCourses(dict_to_print):
    for key, value in dict_to_print.items():
        print(key, value)

赞(0）回复(0）举报 2022-11-09

我来回答

第一个Python Scrapy网页搜罗器不工作

1条答案

相关问题

热门标签

最新问答