Python网络爬虫基本库的使用(大章)
2022/2/7 17:16:39
本文主要是介绍Python网络爬虫基本库的使用(大章),对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
学习爬虫,最基本的操作就是模拟浏览器向服务器发出请求。Pyhton提供了功能齐全的类库来帮助我们实现这些需求。接下来,就让我们从最基础的部分开始了解HTTP库的使用方法吧。
urllib 的使用
版本:在Python2中,有urllib和urllib2两个库来实现请求的发送。而在python3中,已经不存在urllib2这个库了,统一为urllib。
简介:urllib是python内置的http请求库,也就是说不需要额外安装即可使用。它包含如下四个模块。
request:它是最基本的 HTTP 请求模块,可以用来模拟发送请求。就像在浏览器里输入网址然后回车一样,只需要给库方法传入URL及额外的参数,就可以模拟实现这个过程了 parse :一个工具模块,提供了许多 URL 处理方法,比如拆分、解析、合并等 error :常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作以保证程序不会意外终止 robotparser :主要是用来识别网站的 robots.txt 文件,然后判断哪些网站可以爬,哪些网站不可以爬,它其实用得比较少
1、请求模块:urllib.request
urllib.request.urlopen()
urlopen()方法中的url参数可以是字符串,也可以是一个Request对象
作用 :向网站发起一个请求并获取响应
字节流 = response.read()
字符串 = r
这篇关于Python网络爬虫基本库的使用(大章)的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-24Python编程基础详解
- 2024-11-21Python编程基础教程
- 2024-11-20Python编程基础与实践
- 2024-11-20Python编程基础与高级应用
- 2024-11-19Python 基础编程教程
- 2024-11-19Python基础入门教程
- 2024-11-17在FastAPI项目中添加一个生产级别的数据库——本地环境搭建指南
- 2024-11-16`PyMuPDF4LLM`:提取PDF数据的神器
- 2024-11-16四种数据科学Web界面框架快速对比:Rio、Reflex、Streamlit和Plotly Dash
- 2024-11-14获取参数学习:Python编程入门教程