使用Python读取pdf文件
2021/10/27 12:39:37
本文主要是介绍使用Python读取pdf文件,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
学习python,不用再为pdf无法转换而烦恼~~~
下面我们介绍python读取pdf文件(主要是针对文字部分)
1、打开环境
2、安装pdfminer3k包
可以使用jupyter notebook进行安装,如下图所示:
安装成功,大功告成第一步。
3、导入相关的包:
from io import StringIO
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
import re
如图:
4、定义一个读取pdf文档的函数:
def read_from_pdf(file_path):
"""
读取pdf文件
"""
with open(file_path,'rb') as file:
resource_manager = PDFResourceManager()
return_str = StringIO()
lap_params = LAParams()
device = TextConverter(resource_manager,return_str,laparams=lap_params)
process_pdf(resource_manager,device,file)
device.close()
content = return_str.getvalue()
return_str.close()
return re.sub('\s+','',content)
5、使用定义的函数进行测试实验:
read_from_pdf('葡萄酒数据挖掘.pdf')
根据你自己的pdf文件和具体情况进行实验,路径可以是绝对路径和相对路径,任意实验。
实验效果还不错,学习起来吧~~~
这篇关于使用Python读取pdf文件的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-14获取参数学习:Python编程入门教程
- 2024-11-14Python编程基础入门
- 2024-11-14Python编程入门指南
- 2024-11-13Python基础教程
- 2024-11-12Python编程基础指南
- 2024-11-12Python基础编程教程
- 2024-11-08Python编程基础与实践示例
- 2024-11-07Python编程基础指南
- 2024-11-06Python编程基础入门指南
- 2024-11-06怎么使用python 计算两个GPS的距离功能-icode9专业技术文章分享