Python爬虫批量爬取网页数据并保存到Excel中
2021/4/27 1:25:16
本文主要是介绍Python爬虫批量爬取网页数据并保存到Excel中,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
文章目录
- 1、环境准备
- 2、源代码
1、环境准备
pip install requests pip install re pip install openpyxl
2、源代码
import requests import re import openpyxl # 要爬取的网页 baseurl = 'https://zhuanlan.zhihu.com/p/357510629' # 创建Excel表并写入数据 wb = openpyxl.Workbook() # 创建Excel对象 ws = wb.active # 获取当前正在操作的表对象 # 往表中写入标题行,以列表形式写入! ws.append(['事件名称', '时间', '地点名称', '事件简介']) # 请求头 headers = { 'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2', 'Connection': 'keep-alive', 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:60.0) Gecko/20100101 Firefox/60.0', 'Upgrade-Insecure-Requests': '1' } content = requests.get(baseurl,headers=headers).content.decode('utf-8') # 事件名称 event_name = re.findall(r"<td>事件</td><td>(.+?)</td>",content) print(event_name) # 时间 start_time = re.findall(r"<td>时间</td><td>(.+?)</td>",content) print(start_time) # 地点名称 area_name = re.findall(r"<td>地点</td><td>(.+?)</td>",content) print(area_name) # 事件简介 introduction = re.findall(r"<td>简介</td><td>(.+?)</td>",content) print(introduction) for i in range(len(event_name)): # 每页25条数据,写入工作表中 ws.append([event_name[i], start_time[i], area_name[i], introduction[i]]) wb.save('数据.xlsx') # 存入所有信息后,保存为filename.xlsx
这篇关于Python爬虫批量爬取网页数据并保存到Excel中的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-24Python编程基础详解
- 2024-11-21Python编程基础教程
- 2024-11-20Python编程基础与实践
- 2024-11-20Python编程基础与高级应用
- 2024-11-19Python 基础编程教程
- 2024-11-19Python基础入门教程
- 2024-11-17在FastAPI项目中添加一个生产级别的数据库——本地环境搭建指南
- 2024-11-16`PyMuPDF4LLM`:提取PDF数据的神器
- 2024-11-16四种数据科学Web界面框架快速对比:Rio、Reflex、Streamlit和Plotly Dash
- 2024-11-14获取参数学习:Python编程入门教程