太方便了!利用Python对批量Pdf转Word
2021/6/8 22:24:53
本文主要是介绍太方便了!利用Python对批量Pdf转Word,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
在wps或者office里面可以将pdf转word,不过**只能免费转前面5页**,超过5页就**需要会员**。今天教大家一个Python办公小技巧:**批量Pdf转Word** ,这样可以自由想转多少页都可以。 **思路**:这里主要是利用了Python的pdfmine3k库去**提取**pdf文本内容,通过python-docx库去将内容**保存**到word中。 下面先看一下效果: ![](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/11f6f496c9204aa2af40637d5519ca4f~tplv-k3u1fbpfcp-zoom-1.image) # 01 环境准备 在开始编写代码之前,咱们先安装一些用到的Python库,安装目录如下: ``` pip install pdfminer ``` **注意**: 使用 pip install docx 安装模块 docx 后,发现不能正常使用, 并报错 moduleNotFoundError:No module named 'exceptions' **正解**: ``` pip install python-docx ``` # 02 提取PDF内容 **1.导入相应的库** ``` from pdfminer.pdfparser import PDFParser, PDFDocument ``` **解释**: ![](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/81092a8fb10348a9800c5aeefe35b41e~tplv-k3u1fbpfcp-zoom-1.image) **2.读取pdf内容** 在开始读取之前,先看一下pdf的内容: ![](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/5a424876ab314c64a883de0d471fdd5a~tplv-k3u1fbpfcp-zoom-1.image) 辰哥这里以自己的**原创文章按模块分类**后,新建了一个两页的pdf文件。 ![](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/18f8ba846c7941a79a99582011c5eec1~tplv-k3u1fbpfcp-zoom-1.image) 上面代码是读取pdf文件,并把每一页内容放到doc.get_pages里面。 ![](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/9bd64423bc3a4882b2c73fa9007c64b2~tplv-k3u1fbpfcp-zoom-1.image) 通过循环可以把每一页的内容提取出来,并把每一页内容打印输出 ![](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/e68d6e96e8b145b2a1a54422a1e00038~tplv-k3u1fbpfcp-zoom-1.image) # 03 保存到word 上面我们已经成功将pdf的内容提取出来,接着我们将内容保存到word里面 ![](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/d167f512cd1b470f91065a955a7e8436~tplv-k3u1fbpfcp-zoom-1.image) 在遍历pdf内容里面将内容逐步写入保存。最后保存命名为:**Python研究者-辰哥.docx** ![](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/ae5233743f3348aca8cfb4388e005b8b~tplv-k3u1fbpfcp-zoom-1.image) # 04 小结 为了大家方便学习,辰哥已经把本文的完整源码上传,需要的在公众后台回复:**pdf转换** 辰哥在本文中主要讲解了利用Python对批量Pdf转换为Word,不明白的地方可以在**下方留言**,一起交流。这篇关于太方便了!利用Python对批量Pdf转Word的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-24Python编程基础详解
- 2024-11-21Python编程基础教程
- 2024-11-20Python编程基础与实践
- 2024-11-20Python编程基础与高级应用
- 2024-11-19Python 基础编程教程
- 2024-11-19Python基础入门教程
- 2024-11-17在FastAPI项目中添加一个生产级别的数据库——本地环境搭建指南
- 2024-11-16`PyMuPDF4LLM`:提取PDF数据的神器
- 2024-11-16四种数据科学Web界面框架快速对比:Rio、Reflex、Streamlit和Plotly Dash
- 2024-11-14获取参数学习:Python编程入门教程