使用python爬取图片(爬取百度图片为例)
2021/10/19 11:10:57
本文主要是介绍使用python爬取图片(爬取百度图片为例),对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
思路:
1. 确定爬取的是哪一个url的图片,可F12来获取
https://image.baidu.com/search/acjson 就是要爬取图片的url基地址
2.获取需要传递的参数以及header信息复制出来待会会用到
3.对 urllib 的使用:urllib 通常用于网络资源的解析,比如把一个图片链接地址解析成一个图片
urllib.request.urlretrieve(url, "D:/a/壁纸/" + str(n) + '.jpg')
第一个参数是在线图片的地址,第二个是保存的地址,第三个是保存后的图片名字
4.对requests的使用
page_info = requests.get(url=url, headers=header, params=param) page_info.encoding = 'utf-8' page_info = page_info.json() info_list = page_info['data']
话不多说直接开干
import time import requests import urllib page = input("请输入要爬取多少页:") page = int(page) + 1 #确保其至少是一页,因为 输入值可以是 0 header = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36' } n = 0 # 图片的前缀 如 0.png pn = 1 # pn是从第几张图片获取 百度图片下滑时默认一次性显示30张 for m in range(1, page): url = 'https://image.baidu.com/search/acjson?' param = { 'tn': 'resultjson_com', 'logid': '8846269338939606587', 'ipn': 'rj', 'ct': '201326592', 'is': '', 'fp': 'result', 'queryWord': '水果', 'cl': '2', 'lm': '-1', 'ie': 'utf-8', 'oe': 'utf-8', 'adpicid': '', 'st': '-1', 'z': '', 'ic': '', 'hd': '', 'latest': '', 'copyright': '', 'word': '水果', 's': '', 'se': '', 'tab': '', 'width': '', 'height': '', 'face': '0', 'istype': '2', 'qc': '', 'nc': '1', 'fr': '', 'expermode': '', 'force': '', 'cg': 'girl', 'pn': pn, 'rn': '30', 'gsm': '1e', } page_info= requests.get(url=url, headers=header, params=param) page_info.encoding = 'utf-8' #确保解析的格式是utf-8的 page_info= page_info.json() #转化为json格式在后面可以遍历字典获取其值 info_list = page_info['data'] #观察发现data中存在 需要用到的url地址 del info_list[-1] #每一页的图片30张,下标是从 0 开始 29结束 ,那么请求的数据要删除第30个即 29为下标结束点 img_path_list = [] for i in info_list: img_path_list.append(i['thumbURL']) for index in range(len(img_path_list)): print(img_path_list[index]) #所有的图片的访问地址 time.sleep(1) urllib.request.urlretrieve(img_path_list[index], "D:/a/壁纸/" + str(n) + '.jpg') n = n + 1 pn += 29
总结:
对于爬取图片,需要明白的是灵活的获取到爬取图片的地址以及参数和分析数据结构
这篇关于使用python爬取图片(爬取百度图片为例)的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2025-01-03用FastAPI掌握Python异步IO:轻松实现高并发网络请求处理
- 2025-01-02封装学习:Python面向对象编程基础教程
- 2024-12-28Python编程基础教程
- 2024-12-27Python编程入门指南
- 2024-12-27Python编程基础
- 2024-12-27Python编程基础教程
- 2024-12-27Python编程基础指南
- 2024-12-24Python编程入门指南
- 2024-12-24Python编程基础入门
- 2024-12-24Python编程基础:变量与数据类型