自动识别字符验证码--识别模型、标记、特征选择-精灵代理

您的位置：新闻资讯 >文章内容

自动识别字符验证码--识别模型、标记、特征选择

来源：一点一滴的Beer 作者：admin 时间：2018-12-15 17:08:17

验证码如果不使用自动识别软件，想要实现自动识别字符验证码的方法比较麻烦，上文说到爬虫怎么突破验证码限制，在素材收集、处理、切割之后，还需要进行模型训练、标记，以及特征的选择，再进行测试。这种方法耗时比较久，可以尝试：

一、模型训练步骤

在前面的环节，已经完成了对单个图片的处理和分割了。后面就开始进行 识别模型 的训练了。

整个训练过程如下：

大量完成预处理并切割到原子级的图片素材准备
对素材图片进行人为分类，即：打标签
定义单张图片的识别特征
使用SVM训练模型对打了标签的特征文件进行训练，得到模型文件

二、素材准备

本文在训练阶段重新下载了同一模式的4数字的验证图片总计：3000张。然后对这3000张图片进行处理和切割，得到12000张原子级图片。

在这12000张图片中删除一些会影响训练和识别的强干扰的干扰素材，切割后的效果图如下：

自动识别字符验证码--识别模型、标记、特征选择

三、素材标记

由于本文使用的这种识别方法中，机器在最开始是不具备任何数字的观念的。所以需要人为的对素材进行标识，告诉机器什么样的图片的内容是 1……。

这个过程叫做 “标记”。

具体打标签的方法是：为0~9每个数字建立一个目录，目录名称为相应数字（相当于标签）；人为判定图片内容，并将图片拖到指定数字目录中；每个目录中存放100张左右的素材，一般情况下，标记的素材越多，那么训练出的模型的分辨能力和预测能力越强。例如本文中，标记素材为十多张的时候，对新的测试图片识别率基本为零，但是到达100张时，则可以达到近乎100%的识别率。

自动识别字符验证码--识别模型、标记、特征选择

四、特征选择

对于切割后的单个字符图片，像素级放大图如下：

自动识别字符验证码--识别模型、标记、特征选择

从宏观上看，不同的数字图片的本质就是将黑色按照一定规则填充在相应的像素点上，所以这些特征都是最后围绕像素点进行。

字符图片 宽6个像素，高10个像素 ，理论上可以最简单粗暴地可以定义出60个特征：60个像素点上面的像素值。但是显然这样高维度必然会造成过大的计算量，可以适当的降维。

通过查阅相应的文献 [2]，给出另外一种简单粗暴的特征定义：

每行上黑色像素的个数，可以得到10个特征
每列上黑色像素的个数，可以得到6个特征

最后得到16维的一组特征，实现代码如下：

自动识别字符验证码--识别模型、标记、特征选择

然后就将图片素材特征化，按照 libSVM 指定的格式生成一组带特征值和标记值的向量文件。内容示例如下：

自动识别字符验证码--识别模型、标记、特征选择

说明如下：

第一列是标签列，即此图片人为标记值，后续还有其它数值1~9的标记
后面是16组特征值，冒号前面是索引号，后面是值
如果有1000张训练图片，那么会产生1000行的记录

五、模型训练测试

到这个阶段后，由于本文直接使用的是开源的 libSVM 方案，属于应用了，所以此处内容就比较简单的。只需要输入特征文件，然后输出模型文件即可。

主要代码如下：

自动识别字符验证码--识别模型、标记、特征选择

备注：生成的模型文件名称为 svm_model_file

训练生成模型后，需要使用 训练集 之外的全新的标记后的图片作为 测试集 来对模型进行测试。

本文中的测试实验如下：

使用一组全部标记为8的21张图片来进行模型测试
测试图片生成带标记的特征文件名称为 last_test_pix_xy_new.txt

在早期训练集样本只有每字符十几张图的时候，虽然对训练集样本有很好的区分度，但是对于新样本测试集基本没区分能力，识别基本是错误的。逐渐增加标记为8的训练集的样本后情况有了比较好的改观：

到60张左右的时候，正确率大概80%
到185张的时候，正确率基本上达到100%

以数字8的这种模型强化方法，继续强化对数字0~9中的其它数字的模型训练，最后可以达到对所有的数字的图片的识别率达到近乎 100%。在本文示例中基本上每个数字的训练集在100张左右时，就可以达到100%的识别率了。

模型测试代码如下：

自动识别字符验证码--识别模型、标记、特征选择

至此，验证的识别工作算是完满结束。

六、完整识别流程

在前面的环节，验证码识别 的相关工具集都准备好了。然后对指定的网络上的动态验证码形成持续不断地识别，还需要另外写一点代码来组织这个流程，以形成稳定的黑盒的验证码识别接口。

主要步骤如下：

传入一组验证码图片
对图片进行预处理：去噪，二值等等
切割成4张有序的单字符图片
使用模型文件分别对4张图片进行识别
将识别结果拼接
返回识别结果

然后本文中，请求某网络验证码的http接口，获得验证码图片，识别出结果，以此结果作为名称保存此验证图片。效果如下：

自动识别字符验证码--识别模型、标记、特征选择

显然，已经达到几乎 100% 的识别率了。

在本算法没有做任何优化的情况下，在目前主流配置的PC机上运行此程序，可以实现200ms识别一个（很大的耗时来自网络请求的阻塞）。

关于爬虫怎么突破验证码限制，不管是使用自己识别软件，还是通过爬取数据，利用Python突破验证码限制，都证明验证码是可以突破的。虽然后者方法比较繁琐，但也可以进行优化，比如软件层次优化与硬件层次优化。

相关资讯

1、自动识别字符验证码--识别模型、标记、特征选择 2、怎么验证代理IP是否可用？哪一款代理IP好用?3、爬虫遇到验证码怎么办？python爬虫验证码处理 4、爬虫怎么突破验证码限制 5、自动识别字符验证码--素材收集、处理、切割 6、什么是透明代理、匿名代理和高度匿名代理

相关文章内容简介

多IP自由切换，不限量IP代理套餐

精灵代理-已在国内200+城市地区设置节点，可以给大家更广泛的选择空间。In today's digital age, having the ability to switch between multiple IP addresses is essential for many individuals and businesses. Whether you are looking to bypass geo-restrictions, enhance your online security, or simply maintain anonymity while browsing the internet, having access to a reliable and unlimited IP proxy service is crucial.With the rise of online censorship and surveillance, being able to switch between multiple IP address...[阅读全文]

`最佳代理服务器网站推荐`重要性何在?

精灵代理-代理IP均为高匿名IP，代理服务器不会转发原始请求的IP，也不会添加额外的代理ip特征头，ip高匿名。最佳代理服务器网站推荐重要性何在?在如今信息爆炸的时代，网络安全问题愈发凸显。随着网络攻击的不断增多，保护个人隐私和数据安全成为重中之重。而代理服务器则成为一种有效的网络安全工具，可以帮助用户隐藏IP地址、加密数据传输、浏览被封锁的网站等。然而，选择一个可信赖且高效的代理服务器网站也成为了一项挑战。这就为我们带来了一个重要问题：最佳代理服务器网站推荐的重要性何在？首先，最佳代理服务器网站推荐能够保障用户的隐私和安全。在互联网上，有许多不法分子利用用户的个人信息进行网络攻击或者盗取用户的隐私数据。通过使用代理服务器，用户可以隐藏自己的真实IP地址，避免被不法分子跟踪或监视，从而保护个人隐私。而选择一个可信赖的代理服务器网站，可以确保用户的数据传输受到加密保护，有效防止信息泄露和被窃取的风险。其次，最佳代理服务器网站推荐还能帮助用户突破地域限制，访问被封锁的网站。在一些国家或地区，政府或者互联网服务提供商会对一些特定网站进行封锁，导致用户无...[阅读全文]

推荐阅读

1、win10系统怎么换IP【图文教程】11-13 2、网页上的数据怎么爬取？建立一个网路爬虫方法11-29 3、python怎么做数据分析12-10 4、自动识别字符验证码--识别模型、标记、特征选择12-15 5、爬虫如何模仿用户行为？高度隐藏爬虫身份的技巧12-18 6、用Fiddler怎样抓取APP的数据包的方法12-24

热门文章

1、什么是IP代理？IP代理有什么用09-20 2、代理IP地址怎么设置09-20 3、http代理和https代理的区别09-21 4、代理服务器的分类有哪些09-18 5、代理服务器是什么09-18 6、代理IP有什么用09-20 7、代理服务器的工作原理09-21 8、HTTP代理与SOCKS代理的区别09-18

随机推荐

1、代理ip常见用途，精灵代理ip怎样10-19 2、代理服务器有哪些作用10-16 3、手机代理ip软件哪个好用？首选精灵代理11-15 4、怎么用Python刷流量？Python增加代理刷流量01-03

在线咨询

800819103

在线客服，实时响应

qq群

在线客服，实时响应

客服电话

13318873961

微信公众号

微信公众号