python爬虫：BeautifulSoup的使用

2021/5/5 1:25:42

编程Tag： html 爬虫文档 python head BS print BeautifulSoup

本文主要是介绍python爬虫：BeautifulSoup的使用，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

.....................................

BeautifulSoup4将复杂的HTML文档转换成一个复杂的树形结构，每个节点都是Python对象，所有对象可以归结为4类：

- Tag

- NavigableString

- BeautifulSoup

- Comment

.....................................

from bs4 import BeautifulSoup

file = open("./baidu.html","rb")
html = file.read()
bs = BeautifulSoup(html, "html.parser") #两个参数：html文件和html.parser解析器


#print(bs.title)  #打印标签及其内容
#print(bs.a)
#print(bs.head)
#print(type(bs.head))

#1.Tag  标签及其内容：拿到它所找到的第一个内容

#print(bs.title.string) 
#print(type(bs.title.string))


#2.NavigableString 标签里的内容(字符串）
#print(bs.a.attrs)

print(type(bs))

#3.BeautifulSoup    表示整个文档
#print(bs.name)
#print(bs)


print(bs.a.string)
print(type(bs.a.string))

#4.Comment  是一个特殊的NavigableString , 输出的内容不包含注释符号

#---------------------------

#文档的遍历

print(bs.head.contents)  #以列表元素组装
print(bs.head.contents[1]) #访问列表中的第一个元素
#更多内容搜索相关文档

#文档的搜索

这篇关于python爬虫：BeautifulSoup的使用的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

python爬虫：BeautifulSoup的使用

相关编程文章