爬虫系列 | 2、Http请求和响应，写爬虫这些内容必须掌握

2021/1/14 5:08:24

编程Tag： python 网页爬虫

本文主要是介绍爬虫系列 | 2、Http请求和响应，写爬虫这些内容必须掌握，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

爬虫是建立在网络请求的基础上。所以在开始爬虫之前一定要有一定的网络知识。

一、HTTP协议

HTTP协议，全称为HyperText Transfer Protocol。翻译过来呢就是超文本传输协议，默认端口是80，而HTTPS呢则是在HTTP的基础上加入了SSL层，这样呢就会相对安全，请求不会那么轻易的被别人劫持。默认端口是443。

比如我们经常访问的百度、淘宝、B站、P站等等都是HTTPS的

当我们在浏览器中输入网址，按回车后会发生什么？

以下为简述，更多细节可以自行查阅

1、比如我在浏览器中输入www.p_zhan.com （别试了，这是个假网站）。首先会进行DNS解析，获取服务器的IP地址。

2、然后客户端和服务器端会建立TCP链接，链接的过程就是三次握手。通过三次握手之后，客户端与服务端会建立一个可靠的链接，然后就可以进行数据的传输了。

3、发送HTTP请求，浏览器输入的地址请求方式是GET请求！

4、获取服务器的响应。响应码又分为2xx，3xx，4xx，5xx等

5、将内容进行解码，如果数据需要展示，再由浏览器进行渲染。

请求方法：在HTTP/1.1定义的请求虽然有8种，但是掌握以下6种基本就够了

GET：发送的请求是获取服务器上的资源。请求体中不会包含请求数据，请求数据会放在协议头上
POST：向服务器提交资源，比如表单提交，上传文件等。请求数据会放在请求体重
HEAD：本质与GET一样。但是不返回报文主体部分，用于确认URI的有效性以及资源的更新时间等
PUT：常用于上传文件。
DELETE：删除文件
OPTIONS：查询请求的资源支持的请求方法。

响应码：

响应码又称为状态码，表示页面服务器超文本传输协议响应状态的3位数字代码。

1xx: 信息

消息：	描述：
100 Continue	服务器仅接收到部分请求，但是一旦服务器并没有拒绝该请求，客户端应该继续发送其余的请求。
101 Switching Protocols	服务器转换协议：服务器将遵从客户的请求转换到另外一种协议。
103 Checkpoint	用于 PUT 或者 POST 请求恢复失败时的恢复请求建议。

2xx: 成功

消息：	描述：
200 OK	请求成功（这是对HTTP请求成功的标准应答。）
201 Created	请求被创建完成，同时新的资源被创建。
202 Accepted	供处理的请求已被接受，但是处理未完成。
203 Non-Authoritative Information	请求已经被成功处理，但是一些应答头可能不正确，因为使用的是其他文档的拷贝。
204 No Content	请求已经被成功处理，但是没有返回新文档。浏览器应该继续显示原来的文档。如果用户定期地刷新页面，而Servlet可以确定用户文档足够新，这个状态代码是很有用的。
205 Reset Content	请求已经被成功处理，但是没有返回新文档。但浏览器应该重置它所显示的内容。用来强制浏览器清除表单输入内容。
206 Partial Content	客户发送了一个带有Range头的GET请求，服务器完成了它。

3xx: 重定向

消息：	描述：
300 Multiple Choices	多重选择。链接列表。用户可以选择某链接到达目的地。最多允许五个地址。
301 Moved Permanently	所请求的页面已经转移至新的 URL 。
302 Found	所请求的页面已经临时转移至新的 URL 。
303 See Other	所请求的页面可在别的 URL 下被找到。
304 Not Modified	未按预期修改文档。客户端有缓冲的文档并发出了一个条件性的请求（一般是提供If-Modified-Since头表示客户只想比指定日期更新的文档）。服务器告诉客户，原来缓冲的文档还可以继续使用。
305 Use Proxy	客户请求的文档应该通过Location头所指明的代理服务器提取。
306 Switch Proxy	目前已不再使用，但是代码依然被保留。
307 Temporary Redirect	被请求的页面已经临时移至新的 URL 。
308 Resume Incomplete	用于 PUT 或者 POST 请求恢复失败时的恢复请求建议。

4xx: 客户端错误

消息：	描述：
400 Bad Request	因为语法错误，服务器未能理解请求。
401 Unauthorized	合法请求，但对被请求页面的访问被禁止。因为被请求的页面需要身份验证，客户端没有提供或者身份验证失败。
402 Payment Required	此代码尚无法使用。
403 Forbidden	合法请求，但对被请求页面的访问被禁止。
404 Not Found	服务器无法找到被请求的页面。
405 Method Not Allowed	请求中指定的方法不被允许。
406 Not Acceptable	服务器生成的响应无法被客户端所接受。
407 Proxy Authentication Required	用户必须首先使用代理服务器进行验证，这样请求才会被处理。
408 Request Timeout	请求超出了服务器的等待时间。
409 Conflict	由于冲突，请求无法被完成。
410 Gone	被请求的页面不可用。
411 Length Required	"Content-Length" 未被定义。如果无此内容，服务器不会接受请求。
412 Precondition Failed	请求中的前提条件被服务器评估为失败。
413 Request Entity Too Large	由于所请求的实体太大，服务器不会接受请求。
414 Request-URI Too Long	由于 URL 太长，服务器不会接受请求。当 POST 请求被转换为带有很长的查询信息的 GET 请求时，就会发生这种情况。
415 Unsupported Media Type	由于媒介类型不被支持，服务器不会接受请求。
416 Requested Range Not Satisfiable	客户端请求部分文档，但是服务器不能提供被请求的部分。
417 Expectation Failed	服务器不能满足客户在请求中指定的请求头。

5xx: 服务器错误

消息：	描述：
500 Internal Server Error	请求未完成。服务器遇到不可预知的情况。
501 Not Implemented	请求未完成。服务器不支持所请求的功能，或者服务器无法完成请求。
502 Bad Gateway	请求未完成。服务器充当网关或者代理的角色时，从上游服务器收到一个无效的响应。
503 Service Unavailable	服务器当前不可用（过载或者当机）。
504 Gateway Timeout	网关超时。服务器充当网关或者代理的角色时，未能从上游服务器收到一个及时的响应。
505 HTTP Version Not Supported	服务器不支持请求中指明的HTTP协议版本。
511 Network Authentication Required	用户需要提供身份验证来获取网络访问入口。

在这里插入图片描述

这篇关于爬虫系列 | 2、Http请求和响应，写爬虫这些内容必须掌握的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！