Python爬虫笔记

2021/9/14 20:35:14

编程Tag： 网页 image 获取信息爬虫笔记 python os requests

本文主要是介绍Python爬虫笔记，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

Python爬虫笔记

- 总体看过程
- 赋予地址
- 获取网页信息
- 获取网页中所需的信息
- 将得到所需的信息保存到硬盘

总体看过程

爬虫—从网络上爬取所需要的信息，怎么爬取？首先得知道你要去哪里获取（即地址，首先得给你的程序地址），然后下载到达地方的内容，其次获取其中的所需的信息，最后保存下载，这样简单的爬虫流程就这样完成，接下来，我们来看如何详细的来做。

赋予地址

指定网址给变量url = '网址'

获取网页信息

获取网页信息，需要用到指定的模块----requests。

import requests
info = requests.get(url)
print(info.status_code)#查看状态码，200为正常
info.raise_for_status()#出现异常则终止

获取网页中所需的信息

得到的网页信息，其中都是混乱的超文本语言，通过beautifulsoup整理出便于查询的信息。使用常用的模块----beautifulsoup，BeautifulSoup用于解析HTML，使用其中bs4模块。
网页信息中并不是所有的信息都是我们所需要的，通过select()方法寻找元素，完整的CSS选择器的语法GO!

import bs4
soup = bs4.BeautifulSoup(info.text)#有部分网页需要再在后面加个参数'lxml'
elems = soup.select('...')#select()返回一个Tag对象的列表，Tag可以传递给str()函数

将得到所需的信息保存到硬盘

保存文本信息

with open('文件名'， '写入模式'，encoding='') as saveFile:
	for chunk in soup.iter_conten(10000):#iter_content()每次返回一段内容
		saveFile.write(str(chunk))

保存图片信息

import requests, os
os.makedirs('image', exist_ok=True)
image = requests.get(imageUrl)
imageFile = open(os.path.join('image', os.path.basename('image' + str(i))), 'wb')
for i in image.iter_content(10000):
	imageFile.write()
imageFile.close()

这篇关于Python爬虫笔记的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

Python爬虫笔记

Python爬虫笔记

总体看过程

赋予地址

获取网页信息

获取网页中所需的信息

将得到所需的信息保存到硬盘

相关编程文章