scrapy download delay, CONCURRENT_REQUESTS
2021/9/12 6:04:45
本文主要是介绍scrapy download delay, CONCURRENT_REQUESTS,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
设置delay有起码两个好处, 一个是对被爬对象表示礼貌, 另一个是爬的太快,很多服务器会封ip,或限制访问。
效果:每x秒左右来一个request
先建立一个项目来找CONCURRENT_REQUESTS与DOWNLOAD_DELAY的联系
大致给出粗略代码:
jianshuspider.py:
import scrapy
from JianshuSpider_author_1.items
import JianshuspiderAuthor1Item
from scrapy.selector
import Selector
class JianshuSpider(scrapy.Spider):
name ="jianshu"
def start_requests(self):
urls = ['http://www.jianshu.com/users/958f740aed52/followers']
for url
in urls:
yield scrapy.Request(
url = url,
callback=
self.parse_author)
def parse_author(
self,
response):
item = JianshuspiderAuthor1Item()
selector = Selector(response)
fans_href = selector.xpath("//div[@class='info']/a/@href").extract()
for fan_href
in fans_href:
fan_href ='http://www.jianshu.com/users/'+ fan_href.split('/')[-1] +'/followers'
# fan_href = 'http://www.google.com.hk/'+ fan_href.split('/')[-1] + '/followers'#需要timeout时调用
yield scrapy.Request(fan_href,
callback=self.parse_author)
item['author'] = selector.xpath("//div[@class='title']/a/text()").extract_first()
yield item
requestlimit.py(downlomiddleware):
class RequestLimitMiddleware(object):
count =0
def process_request(self,request,spider):
self.count +=1
print(self.count)
以上两个文件的代码为核心代码。
测试结果:
一:
settings.py
CONCURRENT_REQUESTS =8
DOWNLOAD_DELAY =0
并且jianshuspider.py中关闭递归简书链接,打开Google链接语句
效果:8个request同时来,同时timeout。8个request又来,又timeout。如此循环。
二:
settings.py
CONCURRENT_REQUESTS =1
DOWNLOAD_DELAY =5
并且jianshuspider.py中打开递归简书链接,关闭Google链接语句
效果:每5秒左右来一个request
三:
settings.py
CONCURRENT_REQUESTS =2
DOWNLOAD_DELAY =5
并且jianshuspider.py中打开递归简书链接,关闭Google链接语句
效果:一开始来2个request(A,B),但5秒后只处理了一个request(A),新来一个request(C),5秒后又处理一个request(B),排队一个request(D)。如此循环。
总结:
DOWNLOAD_DELAY 会影响 CONCURRENT_REQUESTS,不能使并发显现出来。
思考:
当有CONCURRENT_REQUESTS,没有DOWNLOAD_DELAY 时,服务器会在同一时间收到大量的请求。
当有CONCURRENT_REQUESTS,有DOWNLOAD_DELAY 时,服务器不会在同一时间收到大量的请求。
这篇关于scrapy download delay, CONCURRENT_REQUESTS的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-05-01巧用 TiCDC Syncpoint 构建银行实时交易和准实时计算一体化架构
- 2024-05-01银行核心背后的落地工程体系丨Oracle - TiDB 数据迁移详解
- 2024-04-26高性能表格工具VTable总体构成-icode9专业技术文章分享
- 2024-04-16软路由代理问题, tg 无法代理问题-icode9专业技术文章分享
- 2024-04-16程序猿用什么锅-icode9专业技术文章分享
- 2024-04-16自建 NAS 的方案-icode9专业技术文章分享
- 2024-04-14ansible 在远程主机上执行脚本,并传入参数-icode9专业技术文章分享
- 2024-04-14ansible 在远程主机上执行脚本,并传入参数, 加上remote_src: yes 配置-icode9专业技术文章分享
- 2024-04-14ansible 检测远程主机的8080端口,如果关闭,则echo 进程已关闭-icode9专业技术文章分享
- 2024-04-14result 成功怎么写-icode9专业技术文章分享