Python第十四次知识点学习---爬网页
2021/5/16 14:25:24
本文主要是介绍Python第十四次知识点学习---爬网页,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
目录
- 一、爬搜狗首页的源码
- 二、简单保存搜狗首页数据
一、爬搜狗首页的源码
爬搜狗首页的源码
import requests from bs4 import BeautifulSoup resp = requests.get('https://123.sogou.com/')#请求搜狗首页 header = {"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36 SE 2.X MetaSr 1.0"} print(resp)#打印请求结果的状态码 print(resp.content)#打印请求到的网页源码 bsobj = BeautifulSoup(resp.content,'lxml')#将网页源码构造成BeautifulSoup对象,方便操作 a_list = bsobj.find_all('a')#获取网页中所有a标签对象 for a in a_list: print(a.get('href'))#获取a标签对象的href属性,那这个对象指向的链接地址
二、简单保存搜狗首页数据
简单保存搜狗首页数据
import requests from bs4 import BeautifulSoup resp = requests.get('https://123.sogou.com/')#请求搜狗首页 header = {"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36 SE 2.X MetaSr 1.0"} print(resp)#打印请求结果的状态码 print(resp.content)#打印请求到的网页源码 bsobj = BeautifulSoup(resp.content,'lxml')#将网页源码构造成BeautifulSoup对象,方便操作 a_list = bsobj.find_all('a')#获取网页中所有a标签对象 text = ' '#创建一个空字符串 for a in a_list: href = a.get('href')#获取a标签对象的href属性,那这个对象指向的链接地址 text += href+'\n'#加入到字符串中,并换行 with open('url.txt','w') as f:#在当前路径下,以写的方式打开一个名为‘url.txt’,如果不存在则创建 f.write(text)#将text里的数据写入文本中
运行后会出现一个url.txt文件,数据就在里面。
这篇关于Python第十四次知识点学习---爬网页的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-09-27使用python 将ETH账户的资产打散
- 2024-09-26Python编程基础
- 2024-09-2610 种方法写出更好的 Python 代码
- 2024-09-25Python编程基础详解
- 2024-09-25Python编程入门教程
- 2024-09-25从零开始使用Python构建LLaMA 3
- 2024-09-23Python中理解和使用树形结构的简单教程
- 2024-09-23Python 编程基础入门
- 2024-09-18初探Python股票自动化交易:入门指南
- 2024-09-18Python量化入门:轻松掌握量化分析基础与实战