Python爬虫笔记
2021/9/14 20:35:14
本文主要是介绍Python爬虫笔记,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
Python爬虫笔记
- 总体看过程
- 赋予地址
- 获取网页信息
- 获取网页中所需的信息
- 将得到所需的信息保存到硬盘
总体看过程
爬虫—从网络上爬取所需要的信息,怎么爬取?首先得知道你要去哪里获取(即地址,首先得给你的程序地址),然后下载到达地方的内容,其次获取其中的所需的信息,最后保存下载,这样简单的爬虫流程就这样完成,接下来,我们来看如何详细的来做。
赋予地址
指定网址给变量url = '网址'
获取网页信息
获取网页信息,需要用到指定的模块----requests。
import requests info = requests.get(url) print(info.status_code)#查看状态码,200为正常 info.raise_for_status()#出现异常则终止
获取网页中所需的信息
得到的网页信息,其中都是混乱的超文本语言,通过beautifulsoup整理出便于查询的信息。使用常用的模块----beautifulsoup,BeautifulSoup用于解析HTML,使用其中bs4模块。
网页信息中并不是所有的信息都是我们所需要的, 通过select()方法寻找元素,完整的CSS选择器的语法GO!
import bs4 soup = bs4.BeautifulSoup(info.text)#有部分网页需要再在后面加个参数'lxml' elems = soup.select('...')#select()返回一个Tag对象的列表,Tag可以传递给str()函数
将得到所需的信息保存到硬盘
保存文本信息
with open('文件名', '写入模式',encoding='') as saveFile: for chunk in soup.iter_conten(10000):#iter_content()每次返回一段内容 saveFile.write(str(chunk))
保存图片信息
import requests, os os.makedirs('image', exist_ok=True) image = requests.get(imageUrl) imageFile = open(os.path.join('image', os.path.basename('image' + str(i))), 'wb') for i in image.iter_content(10000): imageFile.write() imageFile.close()
这篇关于Python爬虫笔记的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2025-01-03用FastAPI掌握Python异步IO:轻松实现高并发网络请求处理
- 2025-01-02封装学习:Python面向对象编程基础教程
- 2024-12-28Python编程基础教程
- 2024-12-27Python编程入门指南
- 2024-12-27Python编程基础
- 2024-12-27Python编程基础教程
- 2024-12-27Python编程基础指南
- 2024-12-24Python编程入门指南
- 2024-12-24Python编程基础入门
- 2024-12-24Python编程基础:变量与数据类型