爬虫的一些基本协议
2021/4/15 10:57:36
本文主要是介绍爬虫的一些基本协议,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
爬虫使用分类
- 通用爬虫:抓取系统中一整张页面的数据
- 聚焦爬虫:抓取的是一整张页面中特定的局部内容,如微博页面中的评论数据
- 增量式爬虫:监测网站中数据更新的情况,只抓取网站中最新更新的数据
Robots.txt协议(君子协议)
- 规定了网站中哪些数据可以被爬取
- 在网页后面加上/robots.txt是可以看到这个网页可以被爬取的数据。若是product则是不允许被爬取的
Requests模块
- Python中原生的基于网络请求的模块。
- 作用:模拟浏览器发送请求。
- 使用:
1、指定URL; - UA伪装
- 请求参数处理
2、发起请求;
3、获取响应数据;
4、持久化存储
解决中文乱码问题
1
url = 'https://pic.netbian.com/4kdongman/' r = requests.get(url =url,headers=headers) # 手动设定相应数据的编码格式 # r.encoding = 'utf-8' page_text = r.text
2
img_name = li.xpath('./a/img/@alt')[0]+'.jpg' #通用处理中文乱码的解决问题 img_name.encode('iso-8859-1').decode('gbk')
这篇关于爬虫的一些基本协议的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-27消息中间件底层原理资料详解
- 2024-11-27RocketMQ底层原理资料详解:新手入门教程
- 2024-11-27MQ底层原理资料详解:新手入门教程
- 2024-11-27MQ项目开发资料入门教程
- 2024-11-27RocketMQ源码资料详解:新手入门教程
- 2024-11-27本地多文件上传简易教程
- 2024-11-26消息中间件源码剖析教程
- 2024-11-26JAVA语音识别项目资料的收集与应用
- 2024-11-26Java语音识别项目资料:入门级教程与实战指南
- 2024-11-26SpringAI:Java 开发的智能新利器