Python处理验证码:基于PIL和Tesseract的数字计算识别处理思路
2021/9/11 14:05:21
本文主要是介绍Python处理验证码:基于PIL和Tesseract的数字计算识别处理思路,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
如图,我们在使用python自动化的时候经常会遇到很多各式各样的验证码。这个是一个数字加法的验证码。
干扰项里包含完整的数字、字母信息,普通的OCR识别可能不是很准确。
但是不管怎么样,咱们先把必要的环境搭建起来,试一下Tesseract的识别结果吧。
很多人学习python,不知道从何学起。 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。 很多已经做案例的人,却不知道如何去学习更加高深的知识。 那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码! QQ群:701698587 欢迎加入,一起讨论 一起学习!
- 1、安装Tesseract:
首先需要下载Tesseract的安装包 官方网址:
https://digi.bib.uni-mannheim.de/tesseract/,网上的教程很多推荐安装名称里不带dev的正式版,据说更稳定
- 配置Tesseract:
安装完毕之后需要配置一下环境变量,分为两步:
1、在path里加入安装路径,及安装路径内的tessdata文件夹路径。
2、新建系统变量{TESSDATA_PREFIX:E:\Program Files (x86)\Tesseract-OCR\tessdata} 这里变量名是固定的TESSDATA_PREFIX,值是刚刚提到的安装路径内下一级tessdata文件夹的完整路径
然后命令行里 安装pytesseract:
pip install pytesseract
完成以上步骤之后,请重新启动电脑。
- 图片无法处理识别:
直接调用ocr识别出结果的话,只需要3行代码:
import pytesseract text = pytesseract.image_to_string('图片路径或者内存的图片对象') print(text)
但是对于这个验证码的效果不是非常好,比如:
要么是没有结果,要么就是一堆乱七八糟的东西。
这样肯定是用不了的
那么只能先处理一下图片了
- 图片处理识别:
我下载了20张这个网站的二维码,发现了以下规律:
1、验证码内容一定包含“ = 2位数字+2位数字”的
2、验证码内容的颜色是随机的。
3、验证码内容的位置应该是固定的(20张图片的加号都在同一位置)
4、验证码图片的干扰内容包含字母、数字、符号
5、验证码图片的干扰内容颜色没有跟主要内容一模一样,但是每张图的干扰项一定包含主要内容颜色相近的部分。
可以看到,根据字体的不同,显示的时候,主干是棕色的,但是构成这个字的边缘颜色是稍微淡一些的。不过20张图里都没有发现有干扰项的颜色跟主要内容颜色一模一样。
所以我的想法是因为存在主干的近似色,所以主要的滤波手段可能导致把图片变得更难处理的可能性,所以不如直接获取主干颜色,其他像素不是主干颜色的全部以白色替代,删除干扰项之后再进行识别。
主干颜色可以使用固定的加号的正中间那一点的坐标获取。(80,23)(80,24)
Python代码如下:
# -*- coding: utf-8 -*- """ Created on Wed Apr 14 16:23:47 2021 @author: roshinntou """ from PIL import Image import pytesseract def images_to_string(index): #导入图片,抓取的时候可以直接获取io流 img1= Image.open('index ('+str(index)+').png') #获取图片的长宽 w,h = img1.size print('Original image size: %sx%s' % (w, h)) ''' 因为是PNG图片,像素不是直接以RGB保存的,PNG的每个像素里还有透明度 我们不需要处理透明度,tesseract对于白色和不透明的识别是一样的,这里就转成RGB 如果图片是jpg的,可以直接使用,不需要 convert ''' img1rbg = img1.convert('RGB') #读取全部的像素数据 src_strlist = img1rbg.load() #获取主干颜色 data = src_strlist[80,23] print(data) #双层循环开始替换全部的像素点颜色 for x in range(0,w): for y in range(0,h): #判断当前点颜色是否等于主干颜色 co = src_strlist[x,y] if co !=data: src_strlist[x,y] = (245, 245, 255) #直接调用内存里的PIL image对象进行图片识别 text = pytesseract.image_to_string(img1rbg) text = text.replace(" ","").replace("\r\n","").replace(" ","").replace("\r","").replace("\n","") #打印结果 print(text) #保存图片 img1rbg.save(text+'.png') if __name__ == '__main__': for i in range(1,21): images_to_string(i)
文件如下:
结语:
准确率我大概看了一下,应该是100%的。以上算是成功破解了对方网站的验证码。
验证码的识别整体思路应该就是这样子了,当然我举得例子是比较简单的验证码。还有各种麻烦的验证码,未来可能需要用到截取、卷积、滤波、清洗等等方法,需要根据实际的情况灵活地使用,但是整体的思路就是:
找到验证码规律,根据规律清洗干扰噪点,然后识别。希望可以启发到大家。
最后的最后,现在已经可以获取验证码的字符串了,计算结果非常简单我就不做了。有兴趣的可以试试,我会把所有图片、源代码打包,大家可以下载试一下。
Tesseract安装的时候,系统变量哪里2步都不能少,少一个程序执行就会报错,切记
这篇关于Python处理验证码:基于PIL和Tesseract的数字计算识别处理思路的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-14获取参数学习:Python编程入门教程
- 2024-11-14Python编程基础入门
- 2024-11-14Python编程入门指南
- 2024-11-13Python基础教程
- 2024-11-12Python编程基础指南
- 2024-11-12Python基础编程教程
- 2024-11-08Python编程基础与实践示例
- 2024-11-07Python编程基础指南
- 2024-11-06Python编程基础入门指南
- 2024-11-06怎么使用python 计算两个GPS的距离功能-icode9专业技术文章分享