爬虫的一些基本协议

2021/4/15 10:57:36

编程Tag： 数据页面 img 爬虫 url 抓取协议基本

本文主要是介绍爬虫的一些基本协议，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

爬虫使用分类

通用爬虫：抓取系统中一整张页面的数据
聚焦爬虫：抓取的是一整张页面中特定的局部内容，如微博页面中的评论数据
增量式爬虫：监测网站中数据更新的情况，只抓取网站中最新更新的数据

Robots.txt协议（君子协议）

规定了网站中哪些数据可以被爬取
在网页后面加上/robots.txt是可以看到这个网页可以被爬取的数据。若是product则是不允许被爬取的

Requests模块

Python中原生的基于网络请求的模块。
作用：模拟浏览器发送请求。
使用：
1、指定URL；
UA伪装
请求参数处理
2、发起请求；
3、获取响应数据；
4、持久化存储

解决中文乱码问题

1

url = 'https://pic.netbian.com/4kdongman/'
r = requests.get(url =url,headers=headers)
# 手动设定相应数据的编码格式
# r.encoding = 'utf-8'
page_text = r.text

2

img_name = li.xpath('./a/img/@alt')[0]+'.jpg'
#通用处理中文乱码的解决问题
img_name.encode('iso-8859-1').decode('gbk')

这篇关于爬虫的一些基本协议的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

相关编程文章

更多>