python读取pdf为文本

2021/4/22 20:25:33

本文主要是介绍python读取pdf为文本,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

from urllib.request import urlopen

from pdfminer.pdfinterp import PDFResourceManager, process_pdf

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from io import StringIO

from io import open

def readPDF(pdfFile):
rsrcmgr = PDFResourceManager()#资源管理器
retstr = StringIO()#分配内存
laparams = LAParams()#段落
device = TextConverter(rsrcmgr, retstr, laparams=laparams)#转换为文本

process_pdf(rsrcmgr, device, pdfFile)#抓取文本
#关闭设备
device.close()

content = retstr.getvalue()#抓取字符
retstr.close()#关闭
return content

pdfFile = urlopen(“file:///C:/Users/Administrator/Desktop/爬虫简历.pdf”)
outputString = readPDF(pdfFile)
print(outputString)
pdfFile.close()



这篇关于python读取pdf为文本的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程