Python网络爬虫基本库的使用（大章）

2022/2/7 17:16:39

编程Tag： 请求网站模块爬虫 Request python urllib 可以大章

本文主要是介绍Python网络爬虫基本库的使用（大章），对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

学习爬虫，最基本的操作就是模拟浏览器向服务器发出请求。Pyhton提供了功能齐全的类库来帮助我们实现这些需求。接下来，就让我们从最基础的部分开始了解HTTP库的使用方法吧。

urllib 的使用

版本：在Python2中，有urllib和urllib2两个库来实现请求的发送。而在python3中，已经不存在urllib2这个库了，统一为urllib。

简介：urllib是python内置的http请求库，也就是说不需要额外安装即可使用。它包含如下四个模块。

request：它是最基本的 HTTP 请求模块，可以用来模拟发送请求。就像在浏览器里输入网址然后回车一样，只需要给库方法传入URL及额外的参数，就可以模拟实现这个过程了

parse ：一个工具模块，提供了许多 URL 处理方法，比如拆分、解析、合并等

error ：常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作以保证程序不会意外终止

robotparser ：主要是用来识别网站的 robots.txt 文件，然后判断哪些网站可以爬，哪些网站不可以爬，它其实用得比较少

1、请求模块：urllib.request

urllib.request.urlopen()

urlopen()方法中的url参数可以是字符串，也可以是一个Request对象
作用：向网站发起一个请求并获取响应
字节流 = response.read()
字符串 = r

这篇关于Python网络爬虫基本库的使用（大章）的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

Python网络爬虫基本库的使用（大章）

urllib 的使用

1、请求模块：urllib.request

urllib.request.urlopen()

相关编程文章