Python爬虫笔记
2021/9/14 20:35:14
本文主要是介绍Python爬虫笔记,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
Python爬虫笔记
- 总体看过程
- 赋予地址
- 获取网页信息
- 获取网页中所需的信息
- 将得到所需的信息保存到硬盘
总体看过程
爬虫—从网络上爬取所需要的信息,怎么爬取?首先得知道你要去哪里获取(即地址,首先得给你的程序地址),然后下载到达地方的内容,其次获取其中的所需的信息,最后保存下载,这样简单的爬虫流程就这样完成,接下来,我们来看如何详细的来做。
赋予地址
指定网址给变量url = '网址'
获取网页信息
获取网页信息,需要用到指定的模块----requests。
import requests info = requests.get(url) print(info.status_code)#查看状态码,200为正常 info.raise_for_status()#出现异常则终止
获取网页中所需的信息
得到的网页信息,其中都是混乱的超文本语言,通过beautifulsoup整理出便于查询的信息。使用常用的模块----beautifulsoup,BeautifulSoup用于解析HTML,使用其中bs4模块。
网页信息中并不是所有的信息都是我们所需要的, 通过select()方法寻找元素,完整的CSS选择器的语法GO!
import bs4 soup = bs4.BeautifulSoup(info.text)#有部分网页需要再在后面加个参数'lxml' elems = soup.select('...')#select()返回一个Tag对象的列表,Tag可以传递给str()函数
将得到所需的信息保存到硬盘
保存文本信息
with open('文件名', '写入模式',encoding='') as saveFile: for chunk in soup.iter_conten(10000):#iter_content()每次返回一段内容 saveFile.write(str(chunk))
保存图片信息
import requests, os os.makedirs('image', exist_ok=True) image = requests.get(imageUrl) imageFile = open(os.path.join('image', os.path.basename('image' + str(i))), 'wb') for i in image.iter_content(10000): imageFile.write() imageFile.close()
这篇关于Python爬虫笔记的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-09-18初探Python股票自动化交易:入门指南
- 2024-09-18Python量化入门:轻松掌握量化分析基础与实战
- 2024-09-18Python量化交易:入门指南与实践
- 2024-09-18Python量化交易:入门指南与实战技巧
- 2024-09-14Python人工智能项目实战:从零开始的实践指南
- 2024-09-14探索Python人工智能资料:初学者的指南
- 2024-09-14Python人工智能资料:初学者的全面指南
- 2024-09-13Matplotlib入门:轻松绘制Python数据可视化图表
- 2024-09-13Python人工智能:初学者的入门指南
- 2024-09-13Python人工智能:轻松入门与实践