python爬虫:BeautifulSoup的使用
2021/5/5 1:25:42
本文主要是介绍python爬虫:BeautifulSoup的使用,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
.....................................
BeautifulSoup4将复杂的HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归结为4类:
- Tag
- NavigableString
- BeautifulSoup
- Comment
.....................................
from bs4 import BeautifulSoup file = open("./baidu.html","rb") html = file.read() bs = BeautifulSoup(html, "html.parser") #两个参数:html文件和html.parser解析器 #print(bs.title) #打印标签及其内容 #print(bs.a) #print(bs.head) #print(type(bs.head)) #1.Tag 标签及其内容:拿到它所找到的第一个内容 #print(bs.title.string) #print(type(bs.title.string)) #2.NavigableString 标签里的内容(字符串) #print(bs.a.attrs) print(type(bs)) #3.BeautifulSoup 表示整个文档 #print(bs.name) #print(bs) print(bs.a.string) print(type(bs.a.string)) #4.Comment 是一个特殊的NavigableString , 输出的内容不包含注释符号
#--------------------------- #文档的遍历 print(bs.head.contents) #以列表元素组装 print(bs.head.contents[1]) #访问列表中的第一个元素 #更多内容搜索相关文档 #文档的搜索
这篇关于python爬虫:BeautifulSoup的使用的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-05-08有遇到过吗?同样的规则 Excel 中 比Python 结果大
- 2024-03-30开始python成长之路
- 2024-03-29python optparse
- 2024-03-29python map 函数
- 2024-03-20invalid format specifier python
- 2024-03-18pool.map python
- 2024-03-18threads in python
- 2024-03-14python Ai 应用开发基础训练,字符串,字典,文件
- 2024-03-13id3 algorithm python
- 2024-03-13sum array elements python