scrapy 将多个网络扫描重新组合到一个主网络扫描中

zwghvu4y  于 2022-11-09  发布在  其他
关注(0)|答案(1)|浏览(159)

实际上,我正在做一个用Scrapy进行报废的项目,我最终得到了37个Spider。我想为这些Spider做一个cron-job,但首先我想将我所有的37个Spider重新组合成一个主Spider。这样做的话,我将在主Spider上做一个cron-job,而不是37个cron-job。你有什么想法吗?

tjvv9vkg

tjvv9vkg1#

为什么不创建一个运行所有这些蜘蛛的脚本,并使用cron来调度它呢?
有关创建脚本的信息,请参阅文档。
下面是我的一个项目的示例片段:

def run_spider_crawler(self):
    # .. other code here..

    runner = CrawlerRunner()

    @defer.inlineCallbacks
    def crawl():
        yield runner.crawl(spider1)
        yield runner.crawl(spider2)
        yield runner.crawl(spider3)
        yield runner.crawl(spider4)
        yield runner.crawl(spider5)
        reactor.stop()

    crawl()
    reactor.run()  # the script will block here until the last crawl call is finished

相关问题