python-31-提取pdf中的文字
2021/12/29 12:07:30
本文主要是介绍python-31-提取pdf中的文字,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
(1)Python图像处理之图片文字识别(OCR)
(2)windows下用Python把pdf文件转化为图片
1 OCR与Tesseract
1.1 Tesseract的简介
一、OCR
将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR)。可以实现OCR 的底层库并不多,目前很多库都是使用共同的几个底层OCR 库,或者是在上面进行定制。
二、Tesseract
Tesseract是一个OCR库,目前由Google赞助(Google也是一家以OCR和机器学习技术闻名于世的公司)。Tesseract是目前公认最优秀、最精确的开源OCR系统。
除了极高的精确度,Tesseract也具有很高的灵活性。它可以通过训练识别出任何字体(只要这些字体的风格保持不变就可以),也可以识别出任何Unicode字符。
用Tesseract可以识别格式规范的文字,主要具有以下特点:
(1)使用一个标准字体(不包含手写体、草书,或十分“花哨的”字体)。
(2)虽然被复印或拍照,字体还是很清晰,没有多余的痕迹或污点。
(3)排列整齐,没有歪歪斜斜的字。
(4)没有超出图片范围,也没有残缺不全,或紧紧贴在图片的边缘。
1.2 Tesseract的安装
Tesseract的Windows安装包下载地址
下载后双击直接安装即可。
安装目录C:\Program Files\Tesseract-OCR。
安装完后,需要将Tesseract添加到系统变量中。在CMD中输入tesseract -v, 如显示以下界面,则表示Tesseract安装完成且添加到系统变量中。
1.3 Tesseract的使用
1.3.1 识别英文图片
tesseract xxx.png results.txt
1.3.2 识别中文图片
识别简体中文,需要事先安装简体中文语言包,下载地址为:
简体中文语言包下载地址,右键下载即可。
再将chi_sim.traineddata放在C:\Program Files (x86)\Tesseract-OCR\tessdata目录下。
tesseract xxx.png results.txt -l chi_sim
1.4 pytesseract的使用
pytesseract是Tesseract关于Python的接口,可以使用pip install pytesseract安装。安装完后,就可以使用Python调用Tesseract了,不过,还需要一个Python的图片处理模块,可以安装pillow。
import pytesseract from PIL import Image cmd_path = r'C:\Program Files\Tesseract-OCR\tesseract.exe' image_path = r'C:\Users\user\Desktop\2.png' pytesseract.pytesseract.tesseract_cmd = cmd_path text = pytesseract.image_to_string(Image.open(image_path),lang="chi_sim") # 去掉字符串中的所有空格和换行符 text = text.replace(" ", "").replace("\n","") print(text)
2 提取pdf中的文字
2.1 pdf文件转化为图片
安装库 pip install pymupdf。
# -*- coding: utf-8 -*- import os import fitz pdf = r"C:\Users\user\Desktop\大型网站技术架构.pdf" doc = fitz.open(pdf) pdf_name = os.path.splitext(pdf)[0] print(pdf_name) print(doc.pageCount) i = 0 png_dir = r"C:\Users\user\Desktop\mytest" for pg in range(doc.pageCount): i = i + 1 png_name = str(i)+".png" print(i) png_path = os.path.join(png_dir, png_name) page = doc[pg] rotate = int(0) # 每个尺寸的缩放系数为2,这将为我们生成分辨率提高四倍的图像。 zoom_x = 2.0 zoom_y = 2.0 trans = fitz.Matrix(zoom_x, zoom_y).prerotate(rotate) pm = page.get_pixmap(matrix=trans, alpha=False) pm.save(png_path)
2.2 批量提取图片文字
import pytesseract from PIL import Image import os cmd_path = r'C:\Program Files\Tesseract-OCR\tesseract.exe' def image2txt(png_path): pytesseract.pytesseract.tesseract_cmd = cmd_path text = pytesseract.image_to_string(Image.open(png_path),lang="chi_sim") # 去掉字符串中的所有空格和换行符 text = text.replace(" ", "").replace("\n","") return text png_dir = r"C:\Users\user\Desktop\mytest" num = len(os.listdir(png_dir)) filename = "results.txt" for i in range(num): i = i+1 png_name = str(i) + ".png" png_path = os.path.join(png_dir, png_name) re = image2txt(png_path) with open(filename,"a+",encoding="utf8") as fw: fw.write(str(i)+re+"\n") print(i,re)
3 获取PDF文档目录(纲要)
pip install pdfplumber
pip install pymupdf
#-*- coding: utf-8 -*- from pdfminer.pdfparser import PDFParser from pdfminer.pdfdocument import PDFDocument # 获得目录(纲要) # 打开一个pdf文件 fp = open(r"C:\Users\user\Desktop\大型网站技术架构.pdf", 'rb') parser = PDFParser(fp) document = PDFDocument(parser) # 获得文档的目录(纲要) outlines = document.get_outlines() for (level,title,dest,a,se) in outlines: print(level, title)
这篇关于python-31-提取pdf中的文字的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-09-27使用python 将ETH账户的资产打散
- 2024-09-26Python编程基础
- 2024-09-2610 种方法写出更好的 Python 代码
- 2024-09-25Python编程基础详解
- 2024-09-25Python编程入门教程
- 2024-09-25从零开始使用Python构建LLaMA 3
- 2024-09-23Python中理解和使用树形结构的简单教程
- 2024-09-23Python 编程基础入门
- 2024-09-18初探Python股票自动化交易:入门指南
- 2024-09-18Python量化入门:轻松掌握量化分析基础与实战