如何使用深度學習破解驗證碼 keras 連續驗證碼

阿新 • • 發佈：2019-01-17

在實現網路爬蟲的過程中，驗證碼的出現總是會阻礙爬蟲的工作。本期介紹一種利用深度神經網路來實現的端到端的驗證碼識別方法。通過本方法，可以在不切割圖片、不做模板匹配的情況下實現精度超過90%的識別結果。

本文分為兩個部分，第一個部分介紹如何利用深度神經網路實現驗證碼的訓練和識別，第二個部分介紹在實現過程中需要克服的工程問題。

一. 基於深度神經網路的驗證碼識別

驗證碼的識別是從圖片到文字的過程。傳統的演算法如OCR正是為了解決此類問題而設計的。然而，在真實情形中，驗證碼通常並不以規則的文字出現，即文字通常會有不同程度的變形，影象本身也通常會被新增或多或少的噪聲。這些干擾的出現，使得文字分割、模板匹配不再有效，進而OCR演算法也很難解析出結果。

近年來，深度神經網路（DNN）在影象識別領域已經被證明了強大的識別能力。單個文字的識別是典型的分類問題。通常的做法為訓練一個深度神經網路，網路的最後一層分為N種類別，代表字元的數目。比如對於英文字母，最後一層的分類器便是26個。比如經典的LeNet（http://yann.lecun.com/exdb/lenet/）即為解決單個文字識別的網路：

然而驗證碼通常包含多個字元，如何利用現有的網路實現這類分類問題呢？實際上這個問題再機器學習中被稱為多標籤訓練問題。和上述每個圖片輸入只對應一個標籤類別對比，這類分類的輸出是多個標籤。我們同樣可以對傳統的神經網路稍作改變以適應這種情況。

我們以最簡單的英文字母為例介紹這個過程。如圖一所示，此種驗證碼由5個字母組成；每個字母只取大寫，共有26種類別；圖片中有干擾線貫穿文字，使得文字分割比較困難。

圖一. 驗證碼例項

接下來，我們設計如圖二卷積神經網路：

圖二. 卷積神經網路

圖二中的網路和一般的CNN網路沒有什麼特殊之處，前部均是卷積、Pooling層，只有最後在分類時，將26個類別擴增到26*5=130個類別。對於每幅圖片的標籤而言，在這130維的向量中，每26個維度中有一個1，其餘為0，編碼了五個字母。接著依然使用交叉熵作為代價函式進而優化此網路。就這樣，只要對原先的分類網路做簡單的改變即可解決驗證碼的識別問題。

再如對於數學表示式型別的驗證碼，我們的網路也只是在編碼上把26分類問題變成了13分類問題。下例中(見圖三)最後一層的分類器便設計為3*13=39個類別。

圖三. 數學式型別驗證碼的識別

按照此種思路我們破解了很多風格的驗證碼，如圖四所示：

圖四. 不同風格驗證碼破解例項

二. 一些需要解決的實際工程問題

(1) 合成訓練資料

前文提到訓練的前提是已經擁有了大量的訓練資料，而實際在識別驗證碼時我們很難獲取足夠多的標註過的訓練資料。所以，我們不得不人工合成訓練資料。這一部分通常可以呼叫Java或者C#的文字渲染庫來完成。

訓練的資料並不是越多越好，主要的問題在於人工合成的資料未免和真實驗證碼在形態上有些差距，我們都很難合成出一模一樣的結果。字型、字號及變形程度都或多或少與真實資料不同，而這種不同可能直接導致訓練出的網路面對真實資料時無法發揮作用。

我們的經驗是，針對真實資料的特點，在無法很相似地合成出訓練資料的情況下，要增大樣本的多樣性，實際上也是遵循了深度學習中資料增強（Data Augmentation）的思想。如圖五所示，左邊為真實資料，我們在合成數據時特意增加了每個文字的旋轉、平移，加大了噪聲，使得訓練出的網路能應對資料足夠的變化，從而可以識別出左圖中真實的例子。否則即便在合成數據上達到了很高的精度，在真實資料上也依然可能精度極低（即在合成數據上過擬合）。

圖五. 合成數據實例

(2) 網路大小的選擇

針對不同的任務，網路大小對結果的影響也是巨大的。並非所有的任務都得使用很深的網路來訓練。理論上說，越深的網路自由度越大，同時也非常容易過擬合。雖然有weight_decay這樣引數可以一定程度的對抗過擬合，但通常難度依然是很大的。所以一般來說，對於不太複雜的驗證碼應該選擇較小的網路，只有遇到比較複雜的驗證碼如中文的成語等，我們的經驗才是複雜的網路下效果才更好。

總之，驗證碼識別可以作為深度學習的一個練手專案來學習，在這個實際專案中可以更容易理解到深度學習理論中諸多概念。

轉載於：http://www.saluzi.com/t/topic/16027

如何使用深度學習破解驗證碼 keras 連續驗證碼

如何使用深度學習破解驗證碼 keras 連續驗證碼

使用深度學習破解字元驗證碼(轉)

機器學習與深度學習系列連載：第二部分深度學習（九）Keras- “hello world” of deep learning

【火爐煉AI】深度學習006-移花接木-用Keras遷移學習提升效能

深度學習（四）Keras利用CNN實現圖片識別（Mnist、Cifar10）

深度學習（六）keras常用函式學習

2_初學者快速掌握主流深度學習框架Tensorflow、Keras、Pytorch學習程式碼（20181211）

深度學習（十）keras學習筆記

深度學習之安裝 TensorFlow Keras

帶你測試對比深度學習框架！TensorFlow,Keras,PyTorch...哪家強？(附資料集）

基於Theano的深度學習(Deep Learning)框架Keras學習隨筆-01-FAQ

基於Theano的深度學習(Deep Learning)框架Keras學習隨筆-08-規則化(規格化)

深度學習【3】keras：儲存keras學習好的深度神經網路模型引數為二進位制和txt檔案

【深度學習_4.2】Keras構建殘差神經網路

基於Theano的深度學習(Deep Learning)框架Keras學習隨筆-03-優化器

深度學習模型stacking模型融合python代碼，看了你就會使

使用深度學習的CNN神經網路破解Captcha驗證碼

[TensorFlow深度學習深入]實戰二·使用CNN網路識別破解數字驗證碼

深度學習驗證碼識別(-)keras環境搭建

深度學習下的驗證碼識別教程

如何使用深度學習破解驗證碼 keras 連續驗證碼

相關推薦