Python爬虫笔记

2021/9/14 20:35:14

本文主要是介绍Python爬虫笔记,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

Python爬虫笔记

    • 总体看过程
    • 赋予地址
    • 获取网页信息
    • 获取网页中所需的信息
    • 将得到所需的信息保存到硬盘

总体看过程

爬虫—从网络上爬取所需要的信息,怎么爬取?首先得知道你要去哪里获取(即地址,首先得给你的程序地址),然后下载到达地方的内容,其次获取其中的所需的信息,最后保存下载,这样简单的爬虫流程就这样完成,接下来,我们来看如何详细的来做。

赋予地址

指定网址给变量url = '网址'

获取网页信息

获取网页信息,需要用到指定的模块----requests。

import requests
info = requests.get(url)
print(info.status_code)#查看状态码,200为正常
info.raise_for_status()#出现异常则终止

获取网页中所需的信息

得到的网页信息,其中都是混乱的超文本语言,通过beautifulsoup整理出便于查询的信息。使用常用的模块----beautifulsoup,BeautifulSoup用于解析HTML,使用其中bs4模块。
网页信息中并不是所有的信息都是我们所需要的, 通过select()方法寻找元素,完整的CSS选择器的语法GO!

import bs4
soup = bs4.BeautifulSoup(info.text)#有部分网页需要再在后面加个参数'lxml'
elems = soup.select('...')#select()返回一个Tag对象的列表,Tag可以传递给str()函数

将得到所需的信息保存到硬盘

保存文本信息

with open('文件名', '写入模式',encoding='') as saveFile:
	for chunk in soup.iter_conten(10000):#iter_content()每次返回一段内容
		saveFile.write(str(chunk))

保存图片信息

import requests, os
os.makedirs('image', exist_ok=True)
image = requests.get(imageUrl)
imageFile = open(os.path.join('image', os.path.basename('image' + str(i))), 'wb')
for i in image.iter_content(10000):
	imageFile.write()
imageFile.close()


这篇关于Python爬虫笔记的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程