无法从AWS Lambda上的Scrapy获取结果

vsikbqxv 于 2022-11-09 发布在其他

关注(0)|答案(2)|浏览(204)

我使用python scrapy库构建了一个爬虫。当在本地运行时，它工作得非常完美和可靠。我尝试将它移植到AWS lambda（我已经将它适当地打包了）。然而，当我运行它时，在爬虫运行时进程并没有被阻塞，而是在爬虫没有返回任何结果之前完成了。以下是我在退出日志之前得到的最后几行：

2018-09-12 18:58:07 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2018-09-12 18:58:07 [scrapy.core.engine] INFO: Spider opened

我试过在开始抓取后睡觉，安装钩针并添加声明符，安装和使用this特定的框架，听起来它解决了这个问题，但它也不起作用。
我敢肯定这是一个问题，与λ不尊重斯佩尔斯阻止，但我不知道如何解决它。

scrapy

来源：https://stackoverflow.com/questions/52291998/unable-to-get-results-from-scrapy-on-aws-lambda

2条答案

按热度按时间

41zrol4v1#

我遇到了同样的问题，并通过为sqlite3创建空模块来修复它，如以下答案所述：https://stackoverflow.com/a/44532317/5441099。显然，Scrapy导入了sqlite3，但并不一定要使用它。Python3希望主机上有sqlite3，但AWS Lambda机器上没有。日志中并不总是显示错误消息。
这意味着您可以通过切换到Python2来使其工作，或者像我一样为sqlite3创建空模块。
我运行爬虫的入口文件如下所示，它在Lambda上与Python3.6一起工作：


# run_crawler.py

# crawl() is invoked from the handler function in Lambda

import os
from my_scraper.spiders.my_spider import MySpider
from scrapy.crawler import CrawlerProcess

# Start sqlite3 fix

import imp
import sys
sys.modules["sqlite"] = imp.new_module("sqlite")
sys.modules["sqlite3.dbapi2"] = imp.new_module("sqlite.dbapi2")

# End sqlite3 fix

def crawl():
    process = CrawlerProcess(dict(
        FEED_FORMAT='json',
        FEED_URI='s3://my-bucket/my_scraper_feed/' +
        '%(name)s-%(time)s.json',
        AWS_ACCESS_KEY_ID=os.getenv('AWS_ACCESS_KEY_ID'),
        AWS_SECRET_ACCESS_KEY=os.getenv('AWS_SECRET_ACCESS_KEY'),
    ))
    process.crawl(MySpider)
    process.start()  # the script will block here until all crawling jobs are finished

if __name__ == '__main__':
    crawl()

赞(0）回复(0）举报 2022-11-09

3wabscal2#

正如@viktorAndersen的回答解决了AWS Lambda中的崩溃/工作不符合预期的问题。
我有一个沉重的蜘蛛爬行2000网址，我面临2个问题
1.当我运行scrapy函数超过1次时，出现了ReactorNotRestartable错误。第一次运行时，它运行正常，但从第二次调用时，我遇到了ReactorNotRestartable。
1.当spider花费的时间超过预期持续时间时，crochet.wait_for()出现超时异常
这篇文章的灵感来自于https://stackoverflow.com/a/57347964/12951298

import sys
import imp
from scrapy.crawler import  CrawlerRunner
from scrapy.utils.project import get_project_settings
from scrapy.utils.log import configure_logging
from twisted.internet import reactor;

from crochet import setup, wait_for

setup()

sys.modules["sqlite"] = imp.new_module("sqlite")
sys.modules["sqlite3.dbapi2"] = imp.new_module("sqlite.dbapi2")

@wait_for(900)
def crawl():
    '''
    wait_for(Timeout = inseconds)
    change the timeout accordingly
    this function will raise crochet.TimeoutError if more than 900
    seconds elapse without an answer being received
    '''
    spider_name="header_spider" #your spider name
    project_settings = get_project_settings()
    spider_loader = SpiderLoader(project_settings)

    spider_cls = spider_loader.load(spider_name)
    configure_logging()
    process = CrawlerRunner({**project_settings});
    d = process.crawl(spider_cls);
    return d;

if __name__ == "__main__":
    main('', '')

赞(0）回复(0）举报 2022-11-09

我来回答

无法从AWS Lambda上的Scrapy获取结果

2条答案

相关问题

热门标签

最新问答