【Python】【爬虫】【爬狼】004_正则规则模板及其应用
2021/12/15 22:13:19
本文主要是介绍【Python】【爬虫】【爬狼】004_正则规则模板及其应用,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
正则规则模板 与 应用(一)
先看这些视频,是在哪个div里面的
for datapage in soup.find_all("div", class_="lpic"): # 一个li标签,包含一个视频 for data in datapage.find_all("li"): # 不知道soup代表着什么,没关系,也别急着写,继续往后看
我们要获取的是
1.视频的标题
2.视频的类型
3.视频的介绍
4.视频的详情页链接
5.视频的封面图链接
正则规则模板
# 正则规则开始 gz_fan_title = re.compile(r'''<a href=".*?" title=".*?">(.*?)</a>''',re.S) gz_fan_url = re.compile(r'''<a href="(.*?)"''',re.S) gz_fan_url_img = re.compile(r'''referrerpolicy="no-referrer" src="(.*?)"''',re.S) gz_fan_type = re.compile(r'''<span>类型:(.*?)</span>''',re.S) gz_fan_message = re.compile(r'''<p>(.*?)</p>''', re.S) # 正则规则结束
应用正则规则模板
data = str(data) fan_title = re.findall(gz_fan_title, data) fan_url = re.findall(gz_fan_url, data) fan_img = re.findall(gz_fan_url_img, data) fan_type = re.findall(gz_fan_type, data) fan_message = re.findall(gz_fan_message, data)
那么上面的data
是什么,怎么获得呢?
# 假设搜索love pageNumber = xrilag_SearchAll("love") # xrilag_SearchAll是自定义函数,想了解其具体代码的请查看博客https://www.cnblogs.com/mllt/p/python_pc_pl_edu_003.html # pageNumber是搜索结果的总页数 # 使用for循环,一页一页进行处理 for page in range(pageNumber): # 根据页面跳转的地址改变规则写出页面含变量链接,然后进行源码获取,后面便可以对这一页展开分析与爬取数据了(https://www.cnblogs.com/mllt/p/python_pc_pl_edu_003.html) html_Document = xrilang_UrlToDocument("https://www.yhdmp.cc/s_all?kw=love&pagesize=24&pageindex=" + str(page)) # xrilang_UrlToDocument是自定义函数,作用是获取网页源码。想了解其具体内容,请查看博客https://www.cnblogs.com/mllt/p/python_pc_pl_edu_002.html # 创建一个Beautiful Soup对象 soup = BeautifulSoup(html_Document, "html.parser") # parser是解释器 # 使用了.kpic样式的div,包含且只包含了此页的所有视频列表 for datapage in soup.find_all("div", class_="lpic"): # 一个li标签,包含一个视频 for data in datapage.find_all("li"): # 应用正则规则模板 data = str(data) fan_title = re.findall(gz_fan_title, data) fan_url = re.findall(gz_fan_url, data) fan_img = re.findall(gz_fan_url_img, data) fan_type = re.findall(gz_fan_type, data) fan_message = re.findall(gz_fan_message, data)
这篇关于【Python】【爬虫】【爬狼】004_正则规则模板及其应用的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-24Python编程基础详解
- 2024-11-21Python编程基础教程
- 2024-11-20Python编程基础与实践
- 2024-11-20Python编程基础与高级应用
- 2024-11-19Python 基础编程教程
- 2024-11-19Python基础入门教程
- 2024-11-17在FastAPI项目中添加一个生产级别的数据库——本地环境搭建指南
- 2024-11-16`PyMuPDF4LLM`:提取PDF数据的神器
- 2024-11-16四种数据科学Web界面框架快速对比:Rio、Reflex、Streamlit和Plotly Dash
- 2024-11-14获取参数学习:Python编程入门教程