Python爬虫学习——开始一个小爬虫(一)
2022/2/11 22:42:36
本文主要是介绍Python爬虫学习——开始一个小爬虫(一),对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
Python爬虫学习
文章目录
- Python爬虫学习
- 前言
- 一、什么是爬虫
- 爬虫的矛与盾
- 二、开启一个小爬虫
- 1、导入urlopen包
- 2、打开一个网址,得到响应
- 3、解码
- 4、保存到文件
- 5、打开
前言
写项目书找资料实在头大,还有训练模型采集图片更让人头大,同样也是复习一下自己的python,于是便开启了Python爬虫之旅,为了自己以后查找资料能更加方便
一、什么是爬虫
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
爬虫就是一段代码,从网络上自动寻找一些自己需要的资料,就比如我想搜一些资料,自己铺天盖地得搜,使用爬虫可以通过关键字筛选我们需要的。或者你想看评分很高得电影,这个时候你也可以用爬虫,找到一些评分很高得电影。
爬虫的矛与盾
1、反爬机制
2、反反爬策略
3、robots.txt(君子协议)
二、开启一个小爬虫
使用软件Pycharm
爬虫:通过编写程序来获取互联网资源
需求:用程序模拟浏览器。输入一个网址,从该网址中获得资源或者内容
1、导入urlopen包
from urllib.request import urlopen
2、打开一个网址,得到响应
from urllib.request import urlopen #导入urlopen url = "http://www.baidu.com/" #要爬取的网址 resp = urlopen(url) #打开网址并返回响应 print(resp.read()) #打印信息
最前面有个b’,这个意思是字节,我们需要将字节转字符串
3、解码
看charest等号后面的内容,通过resp.read.decode()进行解码
from urllib.request import urlopen #导入urlopen url = "http://www.baidu.com/" #要爬取的网址 resp = urlopen(url) #打开网址并返回响应 print(resp.read().decode("utf-8")) #打印解码信息
4、保存到文件
from urllib.request import urlopen #导入urlopen url = "http://www.baidu.com/" #要爬取的网址 resp = urlopen(url) #打开网址并返回响应 with open("mybaidu.html",mode="w",encoding='utf-8') as f: #创建html文件并保存 ,encoding设置编码 f.write(resp.read().decode("utf-8")) #读取网页的页面源代码 print("文件保存完成")
这个时候信息就保存在了html文件中了
5、打开
这个时候就会打开百度。
上面是我们搜索打开百度的网址,下面的网址很明显是不一样的
其本质是相同的,可以查看网页页面源代码,你会发现源代码是相同的,上面也有提到
f.write(resp.read().decode("utf-8")) #读取网页的页面源代码
同样也可以对央视频进行爬取
from urllib.request import urlopen #导入urlopen url = "http://v.cctv.com/" #要爬取的网址 resp = urlopen(url) #打开网址并返回响应 #print(resp.read().decode("utf-8")) with open("my2.html",mode="w",encoding='utf-8') as f: #创建html文件并保存 ,encoding设置编码 f.write(resp.read().decode("utf-8")) #读取网页的页面源代码 print("文件保存完成")
这篇关于Python爬虫学习——开始一个小爬虫(一)的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-14获取参数学习:Python编程入门教程
- 2024-11-14Python编程基础入门
- 2024-11-14Python编程入门指南
- 2024-11-13Python基础教程
- 2024-11-12Python编程基础指南
- 2024-11-12Python基础编程教程
- 2024-11-08Python编程基础与实践示例
- 2024-11-07Python编程基础指南
- 2024-11-06Python编程基础入门指南
- 2024-11-06怎么使用python 计算两个GPS的距离功能-icode9专业技术文章分享