Python网络爬虫:爬取CSDN博文 并通过pdfkit转换为PDF方便学习
2021/4/30 22:25:38
本文主要是介绍Python网络爬虫:爬取CSDN博文 并通过pdfkit转换为PDF方便学习,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
hello,大家好,我是wangzirui32,今天我们来学习如何爬取CSDN博文之后还通过pdfkit转换为PDF方便学习。
学习目录
- 1. pdfkit安装及配置
- 2. 编写代码
1. pdfkit安装及配置
首先,在cmd中输入:
pip install pdfkit
安装完成后,我们需要再次安装一个转换器,链接https://wkhtmltopdf.org/downloads.html,如图下载:
下载完成后,打开下载的exe安装程序,按图操作:
所有选项全部默认,只需要一直点下一步即可。
接下来,需要找到转换器的路径,在笔者的电脑中,路径为C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe,如图:
2. 编写代码
这里我以一篇博文为例,代码如下:
import pdfkit # 博文url url = "https://blog.csdn.net/wangzirui32/article/details/116066478" # 转换器路径 path_wkthmltopdf = r'C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe' # 配置转换器 config = pdfkit.configuration(wkhtmltopdf=path_wkthmltopdf) # 根据url生成PDF pdfkit.from_url(url, "Git安装使用.pdf", configuration=config)
运行代码,等待一会,可以看见项目文件夹出现了Git安装使用.pdf,使用浏览器打开,显示:
(有些内容可能没有正确显示,但结果也还是真不戳)
好了,今天的课程就到这里了,喜欢的可以点个收藏和关注,我是wangzirui32,我们下次再见!
这篇关于Python网络爬虫:爬取CSDN博文 并通过pdfkit转换为PDF方便学习的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-21Python编程基础教程
- 2024-11-20Python编程基础与实践
- 2024-11-20Python编程基础与高级应用
- 2024-11-19Python 基础编程教程
- 2024-11-19Python基础入门教程
- 2024-11-17在FastAPI项目中添加一个生产级别的数据库——本地环境搭建指南
- 2024-11-16`PyMuPDF4LLM`:提取PDF数据的神器
- 2024-11-16四种数据科学Web界面框架快速对比:Rio、Reflex、Streamlit和Plotly Dash
- 2024-11-14获取参数学习:Python编程入门教程
- 2024-11-14Python编程基础入门