CNN實現驗證碼識別

阿新 • • 發佈：2020-11-12

前面學過數字識別（單任務），這裡基於CNN來實現驗證碼（多工的識別）

全部程式碼見：github(Tensorflow/10多工學習）

一：驗證碼圖片生成

from captcha.image import ImageCaptcha  #生產驗證碼圖片
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
import random
import sys

（一）定義全域性資訊

numbers = ['0','1','2','3','4','5','6','7','8','9'] # a ..  z  A  .. Z
max_captcha  
= 4
char_set_len = 10
image_height = 60
image_width = 160

（二）獲取驗證碼數字序列

def random_captcha_text(charSet=numbers,charLen=4):
    """
    charSet：候選字串
    charLen：驗證碼長度
    """
    cs = ""
    for i in range(charLen):
        cs+=random.choice(charSet)
    return cs

（三）生成驗證碼

def gen_captcha_image():
    image  
= ImageCaptcha()
    captcha_text = random_captcha_text()
    captcha = image.generate(captcha_text)
    #print(captcha) #<_io.BytesIO object at 0x7f87d2a343b8>
    #image.write(captcha_text,"./1.png")
    captcha_image = Image.open(captcha) #獲取圖片資料
    #print(captcha_image.convert("L")) #轉灰度
    captcha_image  
= np.array(captcha_image)
    return captcha_text,captcha_image

（四）轉灰度影象（3維轉1維）

#圖片轉灰度圖
def convert2gray(img):
    if len(img.shape)>2:
        r,b,g=img[:,:,0],img[:,:,1],img[:,:,2]
        gray = 0.2989*r+0.5870*g+0.1140*b
        return gray
    return img

（五）標籤轉one_hot向量格式

#處理標籤，轉40維one_hot
def text2vec(text):
    vec = np.zeros(max_captcha*char_set_len)
    for i,ch in enumerate(text):
        idx = i*char_set_len+int(ch)
        vec[idx] = 1
    return vec

（六）按批次生成資料

#按批次生成資料
def get_next_batch(batch_size=128):
    batch_x = np.zeros((batch_size,image_height*image_width))
    batch_y = np.zeros((batch_size,max_captcha*char_set_len))
    
    def correct_gen_captcha_text_image():
        while True:
            text,image = gen_captcha_image()
            if image.shape == (60,160,3):
                return text,image
    
    for i in range(batch_size):
        text,image = correct_gen_captcha_text_image()
        image = convert2gray(image)
        batch_x[i,:] = image.flatten()/255
        batch_y[i,:] = text2vec(text)
        
    return batch_x,batch_y

二：構建CNN結構

（一）實現公共函式

#初始化權值
def weight_variable(shape):
    init = tf.truncated_normal(shape,stddev=0.1)
    return tf.Variable(init)

#初始化偏執單元對應權值
def bias_variable(shape):
    init = tf.constant(0.1,shape=shape)
    return tf.Variable(init)

#實現卷積層
def conv2d(x,W):
    #input : 輸入的要做卷積的圖片，要求為一個張量，shape為 [ batch, in_height, in_weight, in_channel ]，其中batch為圖片的數量，in_height 為圖片高度，in_weight 為圖片寬度，in_channel 為圖片的通道數，灰度圖該值為1，彩色圖為3。（也可以用其它值，但是具體含義不是很理解）
    #filter： 卷積核，要求也是一個張量，shape為 [ filter_height, filter_weight, in_channel, out_channels ]，其中 filter_height 為卷積核高度，filter_weight 為卷積核寬度，in_channel 是影象通道數 ，和 input 的 in_channel 要保持一致，out_channel 是卷積核數量。
    #strides： 卷積時在影象每一維的步長，這是一個一維的向量，[ 1, strides, strides, 1]，第一位和最後一位固定必須是1
    #padding： string型別，值為“SAME” 和 “VALID”，表示的是卷積的形式，是否考慮邊界。"SAME"是考慮邊界，不足的時候用0去填充周圍，"VALID"則不考慮
    #use_cudnn_on_gpu： bool型別，是否使用cudnn加速，預設為true
    return tf.nn.conv2d(x,W,strides=[1,1,1,1],padding="SAME")

#實現池化層
def max_pool_2x2(x):
    #value : 需要池化的輸入，一般池化層接在卷積層後面，所以輸入通常是feature map，依然是[batch_size, height, width, channels]這樣的shape
    #k_size : 池化視窗的大小，取一個四維向量，一般是[1, height, width, 1]，因為我們不想在batch和channels上做池化，所以這兩個維度設為了1
    #strides : 視窗在每一個維度上滑動的步長，一般也是[1, stride,stride, 1]
    #padding： 填充的方法，SAME或VALID
    return tf.nn.max_pool(x,[1,2,2,1],strides=[1,2,2,1],padding="SAME")

（二）定義變數佔位符

X = tf.placeholder(tf.float32,[None,image_height*image_width])
Y = tf.placeholder(tf.float32,[None,char_set_len*max_captcha])
keep_drop = tf.placeholder(tf.float32)

（三）定義CNN結構，訓練結構---重點

x = tf.reshape(X,[-1,image_height,image_width,1])

#初始化的一個卷基層的權值和偏執
W_conv1 = weight_variable([3,3,1,32]) #3*3的取樣視窗，1表示輸入通道為1,黑白。32表示輸出的通道數--表示使用了32個卷積核（最終會獲得32個特徵平面）
b_conv1 = bias_variable([32]) #每一個卷積核都需要一個偏執，所以我們這裡要32個偏置值

#獲取第一層卷積之後的啟用值，以及池化層處理以後的隱藏層資訊
h_conv1 = tf.nn.relu(conv2d(x,W_conv1)+b_conv1)
h_pool1 = max_pool_2x2(h_conv1)
h_pool1_drop = tf.nn.dropout(h_pool1,keep_drop)

#----conv (60,160,32)----max_pool (30,80,32)

#第二層卷積池化
W_conv2 = weight_variable([3,3,32,64]) #3*3的取樣視窗，1表示輸入通道為1,黑白。64表示輸出的通道數--表示使用了64個卷積核（最終會獲得64個特徵平面）
b_conv2 = bias_variable([64]) #每一個卷積核都需要一個偏執，所以我們這裡要64個偏置值

#獲取第二層卷積之後的啟用值，以及池化層處理以後的隱藏層資訊
h_conv2 = tf.nn.relu(conv2d(h_pool1_drop,W_conv2)+b_conv2)
h_pool2 = max_pool_2x2(h_conv2)
h_pool2_drop = tf.nn.dropout(h_pool2,keep_drop)

#----conv (30,80,64)----max_pool (15,40,64)

#第三層卷積池化
W_conv3 = weight_variable([3,3,64,128]) #3*3的取樣視窗，1表示輸入通道為1,黑白。128表示輸出的通道數--表示使用了128個卷積核（最終會獲得128個特徵平面）
b_conv3 = bias_variable([128]) #每一個卷積核都需要一個偏執，所以我們這裡要128個偏置值

#獲取第二層卷積之後的啟用值，以及池化層處理以後的隱藏層資訊
h_conv3 = tf.nn.relu(conv2d(h_pool2_drop,W_conv3)+b_conv3)
h_pool3 = max_pool_2x2(h_conv3)
h_pool3_drop = tf.nn.dropout(h_pool3,keep_drop)

#----conv (15,40,128)----max_pool (8,20,128)

#開始全連結層

#先將第3池化層處理後的資料扁平化
h_pool3_flat = tf.reshape(h_pool3_drop,[-1,8*20*128])

#初始化第一個全連結層權值
W_fc1 = weight_variable([8*20*128,1024]) #設定第一個全連結層單元數量為1024
b_fc1 = bias_variable([1024]) #共有1024個目標單元

#求得第一個全連結層的輸出
h_fc1 = tf.nn.relu(tf.matmul(h_pool3_flat,W_fc1)+b_fc1)
h_fc1_drop = tf.nn.dropout(h_fc1,keep_drop)

#初始化第二個全連結層權值
W_fc2 = weight_variable([1024,max_captcha*char_set_len]) #開始要進行輸出了
b_fc2 = bias_variable([max_captcha*char_set_len])

#prediction = tf.nn.softmax(tf.matmul(h_fc1_drop,W_fc2)+b_fc2)
#prediction = tf.nn.sigmoid(tf.matmul(h_fc1_drop,W_fc2)+b_fc2)
prediction = tf.matmul(h_fc1_drop,W_fc2)+b_fc2

#交叉熵處理獲取損失
loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits=prediction,labels=Y))

#根據損失函式進行優化
train_step = tf.train.AdamOptimizer(1e-3).minimize(loss)

#轉換結果格式，開始對比
pred = tf.reshape(prediction,[-1,max_captcha,char_set_len])
max_pred_idx = tf.argmax(pred,2)
max_lable_idx = tf.arg_max(tf.reshape(Y,[-1,max_captcha,char_set_len]),2)

#返回預測結果到bool列表
correct_pred = tf.equal(max_pred_idx,max_lable_idx)
#返回準確率tf.cast強制轉換
accuracy = tf.reduce_mean(tf.cast(correct_pred,tf.float32))

（四）模型訓練、儲存

saver = tf.train.Saver()

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    step = 0
    while True:
        batch_x,batch_y = get_next_batch()
        #hpd = sess.run(h_pool2_drop,feed_dict={X:batch_x,Y:batch_y,keep_drop:0.75})
        #print(hpd)
        _,loss_ = sess.run([train_step,loss],feed_dict={X:batch_x,Y:batch_y,keep_drop:0.75})
        print(step,loss_)
        if step % 10 == 0:
            batch_x,batch_y = get_next_batch()
            acc = sess.run(accuracy,feed_dict={X:batch_x,Y:batch_y,keep_drop:1})
            print(step,acc)
            if acc > 0.99:
                saver.save(sess, './captcha/models/cnn_pic_captcha.model',global_step=step)
                break
        step += 1

注意：第二個7070是準確率，第一個是損失值

補充：

1.在前面幾十次迭代中，誤差下降較快，但是準確率低

2.在進入誤差0.3+範圍時，迭代了2000+，誤差幾乎不變，準確率一直在0.1左右

3.2000次迭代後發生變化，準確率達到0.5

4.3000+迭代後準確率達到0.9

5.4000+迭代以後達到0.99的準確率

6.7000+迭代後

三：模型呼叫

CNN網路結構不變

（一）模型呼叫

saver = tf.train.Saver()

with tf.Session() as sess:
    saver.restore(sess,"./captcha/models/cnn_pic_captcha.model-7070")
    
    text,image = gen_captcha_image()
    plt.figure()
    plt.imshow(image)
    plt.axis("off")
    plt.show()
    
    image = convert2gray(image)
    image = image.flatten()/255
    
    idx = sess.run(max_pred_idx,feed_dict={X:[image],keep_drop:1})
    print(idx)

CNN實現驗證碼識別

前面學過數字識別（單任務），這裡基於CNN來實現驗證碼（多工的識別）全部程式碼見：github(Tensorflow/10多工學習）

C# 使用AspriseOCR.dll實現驗證碼識別

驗證碼（Captcha）基於十道安全柵欄，為網頁、App、小程式開發者打造立體、全面的人機驗證，最大程度地保護註冊登入、活動秒殺、點贊發帖、資料保護等各大場景下的業務安全。要做自動化指令碼程式，就要能識別驗證碼

Python實現驗證碼識別

大致介紹　　在python爬蟲爬取某些網站的驗證碼的時候可能會遇到驗證碼識別的問題，現在的驗證碼大多分為四類：

python+selenium2自動化---使用pytesseract和Pillow實現驗證碼識別

這種方式只能對簡單的驗證碼起作用，複雜的就獲取不到了。驗證碼識別思路：

tensorflow1.x及tensorflow2.x不同版本實現驗證碼識別

近一個假期，入坑深度學習，先從能看得著的驗證碼識別入門。從B站看了幾天的黑馬程式設計師的“3天帶你玩轉python深度學習後“，一是將教程中提到的程式碼一一碼出來；二是針對不同的tensorflow版本，結合

利用Tensorflow構建和訓練自己的CNN來做簡單的驗證碼識別方式

Tensorflow是目前最流行的深度學習框架，我們可以用它來搭建自己的卷積神經網路並訓練自己的分類器，本文介紹怎樣使用Tensorflow構建自己的CNN，怎樣訓練用於簡單的驗證碼識別的分類器。本文假設你已經安裝好了Tenso

Python基於內建庫pytesseract實現圖片驗證碼識別功能

這篇文章主要介紹了Python基於內建庫pytesseract實現圖片驗證碼識別功能,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

寫給程式設計師的機器學習入門 (八) - 卷積神經網路 (CNN) - 圖片分類和驗證碼識別

這一篇將會介紹卷積神經網路 (CNN)，CNN 模型非常適合用來進行圖片相關的學習，例如圖片分類和驗證碼識別，也可以配合其他模型實現 OCR。

python opencv pytesseract 驗證碼識別的實現

一、環境配置需要 pillow 和 pytesseract 這兩個庫，pip install 安裝就好了。 install pillow -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

乾貨：用js實現的簡單驗證碼識別

很高興大家喜歡！Github：leonof/imgRecJs，剛剛上傳，程式碼還需要完善～因為有不少同學表示訓練和識別有疑問，我做了個小介面放在最後，可以方便大家先把流程走通。

Nodejs Playwright 2Captcha 驗證碼識別實現自動登陸

原文：https://lwebapp.com/zh/post/bypass-captcha 需求日常工作當中，為了提高工作效率，我們可能會寫指令碼來自動執行任務。有些網站因為需要使用者登陸，所以指令碼的自動登陸功能必不可少。

python cv2在驗證碼識別中應用例項解析

這篇文章主要介紹了python cv2在驗證碼識別中應用例項解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

flask實現驗證碼並驗證功能

什麼是Flask？ Flask是一個用Python編寫的Web應用程式框架，Flask是python的web框架，最大的特徵是輕便，讓開發者自由靈活的相容要開發的feature。它由Armin Ronacher開發，他領導一個名為Pocco的國際Python愛好者團

Spring Security實現驗證碼登入功能

這篇文章主要介紹了Spring Security實現驗證碼登入功能,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

ThinkPHP5&5.1實現驗證碼的生成、使用及點選重新整理功能示例

本文例項講述了ThinkPHP5&5.1實現驗證碼的生成、使用及點選重新整理功能。分享給大家供大家參考，具體如下：

Python3.7實現驗證碼登入方式程式碼例項

這篇文章主要介紹了Python3.7實現驗證碼登入方式程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Android 使用fast-verification實現驗證碼填寫功能的例項程式碼

fast-verification 驗證碼的驗證環節現在是移動APP中不可缺少的一部分，直接使用EditText元件雖然方便但缺少了一些美感，使用fast-verification，讓實現驗證碼變得更簡單。

Python pytesseract驗證碼識別庫用法解析

環境 centos7 python3 pytesseract只是tesseract-ocr的一種實現介面。所以要先安裝tesseract-ocr（大名鼎鼎的開源的OCR識別引擎）。

python圖片驗證碼識別最新模組muggle_ocr的示例程式碼

一.官方文件 https://pypi.org/project/muggle-ocr/ 二模組安裝 pip install muggle-ocr # 因模組過新，阿里/清華等第三方源可能尚未更新映象，因此手動指定使用境外源，為了提高依賴的安裝速度，可預先自行安裝依

數字加減法驗證碼識別使用K-近鄰演算法(KNN)

驗證碼如上所示 100*30 下面咱們開始神奇的旅程下載批量驗證碼圖片資料集用來訓練

CNN實現驗證碼識別

前面學過數字識別（單任務），這裡基於CNN來實現驗證碼（多工的識別）

全部程式碼見：github(Tensorflow/10多工學習）

一：驗證碼圖片生成

（一）定義全域性資訊

（二）獲取驗證碼數字序列

（三）生成驗證碼

（四）轉灰度影象（3維轉1維）

（五）標籤轉one_hot向量格式

（六）按批次生成資料

二：構建CNN結構

（一）實現公共函式

（二）定義變數佔位符

（三）定義CNN結構，訓練結構---重點

（四）模型訓練、儲存

注意：第二個7070是準確率，第一個是損失值

補充：

1.在前面幾十次迭代中，誤差下降較快，但是準確率低

2.在進入誤差0.3+範圍時，迭代了2000+，誤差幾乎不變，準確率一直在0.1左右

3.2000次迭代後發生變化，準確率達到0.5

4.3000+迭代後準確率達到0.9

5.4000+迭代以後達到0.99的準確率

6.7000+迭代後

三：模型呼叫

（一）模型呼叫

相關推薦