scrapy的Pipeline类不可使用yield
2022/1/22 23:34:20
本文主要是介绍scrapy的Pipeline类不可使用yield,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
scrapy的Pipeline类不可使用yield
业务需求在scarpy的pipeline中处理过数据后再生成新的Request。但如果直接再Pipeline类的process_item方法中yield Request,会导致爬虫执行直接跳过该Pipeline,连个报错都看不到。
排查发现是yield使该函数的调用的返回值成为生成器,而不是相关返回值。
如何在Pipeline中生成新请求
1.参照MediaPipeline。
之所以我会先入为主地认为可以在Pipeline中直接yield出新Request,是因为之前使用过官方自带的MediaPipeline,改写其get_media_requests的方法,并可最终yield出新Request。
则仿照MediaPipeline的process_item完成业务逻辑即可。
MediaPipeline的process_item的主要逻辑如下
def process_item(self, item, spider): info = self.spiderinfo requests = arg_to_iter(self.get_media_requests(item, info)) dlist = [self._process_request(r, info) for r in requests] dfd = DeferredList(dlist, consumeErrors=1) return dfd.addCallback(self.item_completed, item, info)
可看出是调用了twisted的DeferredList来分发请求。
2.显式调用crawler.engine.crawl()
该方法参考scrapy在pipeline中重新生成request
显式调用crawler.engine.crawl(),将新的request发送至执行引擎。
class MyPipeline(object): def __init__(self, crawler): self.crawler = crawler @classmethod def from_crawler(cls, crawler): return cls(crawler) def process_item(self, item, spider): ... self.crawler.engine.crawl( Request( url='someurl', callback=self.custom_callback, ), spider, ) # YES, you can define a method callback inside the same pipeline def custom_callback(self, response): ... yield item
这篇关于scrapy的Pipeline类不可使用yield的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-07-06有没有什么开源的py项目可以对图像进行分类-icode9专业技术文章分享
- 2024-07-05feign默认connecttimeout和readtimeout是多少-icode9专业技术文章分享
- 2024-07-05idea控制台,日志太多,导致部分想看得日志被刷走 搜不到-icode9专业技术文章分享
- 2024-07-05The server selected protocol version Tls10 is not accepted by client preferences [TLs12]-icode9专业技术文章分享
- 2024-07-05怎么清理项目缓存-icode9专业技术文章分享
- 2024-07-04安装 Eyoucms详细图文教程-icode9专业技术文章分享
- 2024-07-04ueditor 复制文章时,图片的链接是一个下载图片地址,该如何处理?-icode9专业技术文章分享
- 2024-07-04怎样判断host有没有对wordpress有缓存呢-icode9专业技术文章分享
- 2024-07-04具有编译功能的系统make后,无法ssh连接-icode9专业技术文章分享
- 2024-07-04make后如何升级ssh-icode9专业技术文章分享