Python爬虫精进-第0关 文章下载
2021/7/11 17:06:08
本文主要是介绍Python爬虫精进-第0关 文章下载,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
Python爬虫精进-第0关 文章下载
练习介绍
要求:
获取文章《HTTP状态响应码》全部内容,并且打印出全文内容。
文章链接地址:
https://localprod.pandateacher.com/python-manuscript/crawler-html/exercise /HTTP%E5%93%8D%E5%BA%94%E7%8A%B6%E6%80%81%E7%A0%81.md
目的:
练习获取网上的文本文件。
题目注意点
第一次编译运行的时候报了如下错误,CSDN过后,在评论区发现了解决问题的方法:开了代理才会导致报如下错误,关闭代理即可。
ValueError: check_hostname requires server_hostname
在此附上CSDN博文链接:
传送门
python参考代码
''' Author: Gu Jiakai Date: 2021-07-11 14:45:27 LastEditTime: 2021-07-11 15:03:38 LastEditors: Gu Jiakai Description: FilePath: \第0关-初识爬虫\习题再练-文章下载.py ''' import requests#引入requests库。 #文章链接。 url1='https://localprod.pandateacher.com/python-manuscript/crawler-html/exercise/HTTP%E5%93%8D%E5%BA%94%E7%8A%B6%E6%80%81%E7%A0%81.md' # requests.get是在调用requests库中的get()方法,它向服务器发送了一个请求, # 括号里的参数是你需要的数据所在的网址,然后服务器对请求作出了响应。 # 把响应返回的结果赋值给变量res。 res=requests.get(url1) #打印状态码,检查请求是否成功。 print(res.status_code) # 把response对象转换为字符串数据。 content=res.text # Python strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。 print(content.strip())
补充
获取到数据后,存储数据。【存储文件的三个步骤:打开文件,存储文件,关闭文件。】
''' Author: Gu Jiakai Date: 2021-07-11 14:45:27 LastEditTime: 2021-07-11 15:27:16 LastEditors: Gu Jiakai Description: FilePath: \第0关-初识爬虫\习题再练-文章下载.py ''' import requests#引入requests库。 #文章链接。 url1='https://localprod.pandateacher.com/python-manuscript/crawler-html/exercise/HTTP%E5%93%8D%E5%BA%94%E7%8A%B6%E6%80%81%E7%A0%81.md' # requests.get是在调用requests库中的get()方法,它向服务器发送了一个请求, # 括号里的参数是你需要的数据所在的网址,然后服务器对请求作出了响应。 # 把响应返回的结果赋值给变量res。 res=requests.get(url1) #打印状态码,检查请求是否成功。 print(res.status_code) # 把response对象转换为字符串数据。 content=res.text # Python strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。 print(content.strip()) # with open('文件地址','读写模式','编码方式') as 变量名: with open('http状态响应码','a+',encoding='utf-8') as file: file.write(content) #无需用close()函数关闭文件。
注:
网页的编码方式为‘utf-8’,因此我们写入特定编码的文本文件要给open()函数传入encoding参数,将字符串自动转换为指定编码方式编码。
参考资料
Python strip()方法
Python3中打开文件的方式(With open)
这篇关于Python爬虫精进-第0关 文章下载的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-12-20Python编程入门指南
- 2024-12-20Python编程基础与进阶
- 2024-12-19Python基础编程教程
- 2024-12-19python 文件的后缀名是什么 怎么运行一个python文件?-icode9专业技术文章分享
- 2024-12-19使用python 把docx转为pdf文件有哪些方法?-icode9专业技术文章分享
- 2024-12-19python怎么更换换pip的源镜像?-icode9专业技术文章分享
- 2024-12-19Python资料:新手入门的全面指南
- 2024-12-19Python股票自动化交易实战入门教程
- 2024-12-19Python股票自动化交易入门教程
- 2024-12-18Python量化入门教程:轻松掌握量化交易基础知识