Ubuntu PDF OCR 工具—OCRmyPDF
2021/6/4 7:24:33
本文主要是介绍Ubuntu PDF OCR 工具—OCRmyPDF,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
简介
开源 OCR 工具,识别扫描版 PDF 使其可以搜索、复制等
OCR, Optical Character Recognition,光学字符识别,是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程
github: https://github.com/jbarlow83/OCRmyPDF
docs: https://ocrmypdf.readthedocs.io/en/latest/
安装
安装 ocymypdf 及依赖
sudo apt-get -y remove ocrmypdf # 本机未安装 ocrmypdf 旧版 sudo apt-get -y update sudo apt-get -y install \ ghostscript \ icc-profiles-free \ liblept5 \ libxml2 \ pngquant \ python3-cffi \ python3-distutils \ python3-pkg-resources \ python3-reportlab \ qpdf \ tesseract-ocr \ zlib1g \ unpaper wget https://bootstrap.pypa.io/get-pip.py && python3 get-pip.py export PATH=$HOME/.local/bin:$PATH python3 -m pip install --user ocrmypdf
安装 JBIG2 encoder
git clone https://github.com/agl/jbig2enc cd jbig2enc ./autogen.sh ./configure && make [sudo] make install
遇到的问题
执行 ./autogen.sh
-
./autogen.sh: 行 45: aclocal:未找到命令
sudo apt-get install automake
-
./autogen.sh: 行 50: libtoolize:未找到命令 ./autogen.sh: 行 50: glibtoolize:未找到命令
sudo apt install libtool
执行./configure && make
-
Error! Leptonica not detected.
sudo apt install libleptonica-dev
https://github.com/tesseract-ocr/tesseract/issues/215#issuecomment-369339789
-
Error! zlib not detected.
sudo apt install zlib1g-dev
安装语言包
中文简体
sudo apt install tesseract-ocr-chi-sim
命令
ocrmypdf -l chi_sim --output-type pdf [source.pdf] [ocr.pdf]
-
ocrmypdf
工具命令
-
-l
chi_sim指定语言为中文简体
-
--output-type
pdf生成标准的 PDF 格式
-
source.pdf
需要进行处理的文档名
-
ocr.pdf
处理完生成的文档名
示例
ocrmypdf -l chi_sim --output-type pdf 正则表达式必知必会\(修订版\).pdf 正则表达式必知必会\(修订版\)-ocr.pdf --force-ocr
这篇关于Ubuntu PDF OCR 工具—OCRmyPDF的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-06-26终极指南:Scrum中如何设置需求优先级
- 2024-06-26AI大模型企业应用实战(25)-为Langchain Agent添加记忆功能
- 2024-06-26小白家庭 nas 搭建方案-icode9专业技术文章分享
- 2024-06-23AI大模型企业应用实战(14)-langchain的Embedding
- 2024-06-23AI大模型企业应用实战(15)-langchain核心组件
- 2024-06-23AI大模型企业应用实战(16)-langchain核心组件
- 2024-06-23AI 大模型企业应用实战(06)-初识LangChain
- 2024-06-19EntBot.ai: AI Website Chatbot for Product Guides and Development Doc
- 2024-06-17zero-shot-learning-definition-examples-comparison
- 2024-06-06Package Easy(基于 NSIS 的打包exe安装包工具)使用方法-icode9专业技术文章分享