Python--beautifulsoup4 (bs4)
2022/2/27 20:23:07
本文主要是介绍Python--beautifulsoup4 (bs4),对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
beautifulsoup4
引用:from bs4 import BeautifulSoup
BeautifulSoup 类
soup = BeautifulSoup(),此类会在初始化时自动修正html
获取节点
soup.节点名,比如soup.p获取
节点,会返回第一个匹配到的p节点,返回类型是bs4.element.Tag
prettify 方法
格式化输出html
bs4.element.NavigableString 类
文本节点的类型
bs4.element.Tag 类
嵌套调用
可以使用点操作符获取内部节点,返回的已经是Tag类型
name
节点的名称,比如p
attrs
节点当前使用的所有属性,字典格式,也可以不适用attrs而是直接使用 节点名['属性名']的方式直接获取,比如 p['class']
string
获取节点的文本内容,如果同时包含文本和其他子节点,返回的是None
contents
返回所有直接子节点, 类型为list
children
同contents,返回所有直接子节点,只是类型为一个迭代器,可以使用list(xxx.children)转成list类型
descendants
返回的是一个生成器,包含所有子孙节点,可以使用list(xxx.descendants)转成list类型
parent
返回节点的父节点
parents
返回一个生成器,包含了节点的所有祖先节点
next_sibling
下一个兄弟节点
next_siblings
返回一个生成器,包含后面的所有兄弟节点
previous_sibling
前一个兄弟节点
previous_siblings
返回一个生成器,包含前面的所有兄弟节点
find_all
查询所有满足条件的节点:find_all(name, attrs, recursive, text, **kwargs)
- name: 根据节点的名称,比如 name='p'查询所有
节点
- attrs: 根据属性查找,字典格式
- text: 根据文本内容查找,可以是字符串,也可以是正则对象,返回的是文本节点列表
find
只返回第一个匹配的节点
find_parent
find_parents
find_next_sibling
find_next_siblings
find_previous_sibling
find_previous_siblings
find_next
find_all_next
find_previous
find_all_previous
select
使用css选择器进行查找
get_text
获取文本,返回由所有子孙文本节点组成的文本
这篇关于Python--beautifulsoup4 (bs4)的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-21Python编程基础教程
- 2024-11-20Python编程基础与实践
- 2024-11-20Python编程基础与高级应用
- 2024-11-19Python 基础编程教程
- 2024-11-19Python基础入门教程
- 2024-11-17在FastAPI项目中添加一个生产级别的数据库——本地环境搭建指南
- 2024-11-16`PyMuPDF4LLM`:提取PDF数据的神器
- 2024-11-16四种数据科学Web界面框架快速对比:Rio、Reflex、Streamlit和Plotly Dash
- 2024-11-14获取参数学习:Python编程入门教程
- 2024-11-14Python编程基础入门