Tensorflow2.0——利用卷積神經網路實現簡單的驗證碼識別

阿新 • • 發佈：2019-04-26

之前用tensorflow1.13做了一個驗證碼識別的小東西準確率還是相當高的（當然其中大部分邏輯都是從網上很多大神的部落格中借鑑以後再自己試驗的）

前不久tensorflow2.0的alpha版釋出以後就一直想著用2.0的keras方式重寫一遍，因為看了deeplearning.ai中的幾個視訊中都是以keras方式來實現的，感覺比原生的tensorflow方式建立模型的方法要簡單清晰很多，而且訓練結果的儲存和重新載入也是簡化了很多。

====================================================

驗證碼生成及預處理

這裡保留了之前驗證碼生成的方式，仍然使用captcha來生成驗證碼

驗證碼的內容是10個數字0~9，小寫英文字母和大寫英文字母，所以總的字元量為62種

number = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']
alphabet = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u',
            'v', 'w', 'x', 'y', 'z']
ALPHABET = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U',
            'V', 'W', 'X', 'Y', 'Z']
CHAR_SET = number + alphabet + ALPHABET

可以看到生成的驗證碼都是帶干擾線干擾點，並且各種顏色和變形處理都是有的

首先將圖片轉成numpy陣列

captcha_image = Image.open(captcha)
captcha_image = np.array(captcha_image)

根據分析，這類驗證碼的顏色對我們的識別沒有影響，所以將影象進行預處理——灰度化（根據圖片的不同可以做灰度化或者二值化等預處理操作）

這裡使用的是求均值的方法（正規的方法應該是RGB三個通道上按照一定的比例取值）

gray = np.mean(img, -1)

====================================================

建立卷積神經網路模型

1.輸入的圖片為160 * 60的，灰度化預處理以後為一維陣列，每張圖片總共有9600個輸入值

IMAGE_HEIGHT = 60
IMAGE_WIDTH = 160

2.輸出的字符集有62個字元，並且每張圖片有4位字元，總共有4 * 62 = 248個輸出值（下面的batch_size為每批訓練的圖片數量）

batch_y = np.zeros([batch_size, MAX_CAPTCHA, CHAR_SET_LEN])

3.輸入層有9600個值，輸出層有248個值，如果使用全連線層作為隱藏層則會需要天量的計算

所以需要先使用卷積核池化操作儘可能的減少計算量（如果有一些深度學習基礎的同學應該知道計算機視覺中一般都是用卷積升級網路來解決這類問題）

圖片畫素不高，所以使用的卷積核和池大小不能太大，優先考慮3 * 3 和5 * 5 的卷積核，池大小使用2 * 2

按照下面的神經網路模型，卷積池化以後的輸出應該是128 * 17 * 5 = 10880（如果最後一層的深度仍然使用64的話，大小會減為一半）

model.add(tf.keras.layers.Conv2D(32, (3, 3)))
model.add(tf.keras.layers.PReLU())
model.add(tf.keras.layers.MaxPool2D((2, 2), strides=2))

model.add(tf.keras.layers.Conv2D(64, (5, 5)))
model.add(tf.keras.layers.PReLU())
model.add(tf.keras.layers.MaxPool2D((2, 2), strides=2))

model.add(tf.keras.layers.Conv2D(128, (5, 5)))
model.add(tf.keras.layers.PReLU())
model.add(tf.keras.layers.MaxPool2D((2, 2), strides=2))

4.輸出的的每一位的字元之間沒有關聯關係，所以仍然將輸出值看成4組，需要將輸出值調整為(4, 62)的陣列

model.add(tf.keras.layers.Flatten())
model.add(tf.keras.layers.Dense(MAX_CAPTCHA * CHAR_SET_LEN))
model.add(tf.keras.layers.Reshape([MAX_CAPTCHA, CHAR_SET_LEN]))

6.識別的原理是計算每一位字元上某個字元出現的可能性最大，所以每張圖片都是一個4位的多分類問題，最終輸出使用softmax進行歸一化

model.add(tf.keras.layers.Softmax())

7.在tensorflow2.0中softmax對應的損失函式是categorical_crossentropy，按照這個來配置模型

model.compile(optimizer='Adam',
              metrics=['accuracy'],
              loss='categorical_crossentropy')

8.最後將可能性最大的那個下標取出，作為字符集的下標，獲取實際對應的字元（當然我們在訓練的時候沒有必要轉化為字元，直接下標比較一下是否正確就可以了）

prediction_value = vec2text(np.argmax(prediction_value, axis=2)[0])

====================================================

訓練模型

使用一個迴圈邏輯開啟訓練，每批訓練512張圖片，每批訓練4次

for times in range(500000):
    batch_x, batch_y = get_next_batch(512)
    model.fit(batch_x, batch_y, epochs=4)
    print("y預測=\n", np.argmax(model.predict(batch_x), axis=2))
    print("y實際=\n", np.argmax(batch_y, axis=2))

剛開始的時候可能損失值會在4左右徘徊，多跑幾個批次以後損失值會明顯下降，精確度accuracy也會直線上升

下面可以看到每批的第一次訓練結果中精確度只有不到60%，而在第四次訓練結果中精確度基本上都能達到99%以上

但是這個精確度達到99%了也不能說明整個模型就訓練結束了，這個精確度只是針對這一批512張圖片來說的

畢竟4位驗證碼有62 * 62 * 62 * 62種可能，訓練集並不能代表所有的可能性，所以我們需要使用新生成的驗證碼來證明整個訓練結果是否能結束

Epoch 1/4

 32/512 [>.............................] - ETA: 5s - loss: 2.4209 - accuracy: 0.5703
 64/512 [==>...........................] - ETA: 5s - loss: 2.2339 - accuracy: 0.5703
 96/512 [====>.........................] - ETA: 5s - loss: 2.1561 - accuracy: 0.5911
128/512 [======>.......................] - ETA: 4s - loss: 2.0170 - accuracy: 0.6016
160/512 [========>.....................] - ETA: 4s - loss: 1.9622 - accuracy: 0.6031
192/512 [==========>...................] - ETA: 3s - loss: 1.9425 - accuracy: 0.6029
224/512 [============>.................] - ETA: 3s - loss: 1.9192 - accuracy: 0.6038
256/512 [==============>...............] - ETA: 3s - loss: 1.8921 - accuracy: 0.6113
288/512 [===============>..............] - ETA: 2s - loss: 1.8746 - accuracy: 0.6094
320/512 [=================>............] - ETA: 2s - loss: 1.8479 - accuracy: 0.6031
352/512 [===================>..........] - ETA: 1s - loss: 1.8367 - accuracy: 0.5987
384/512 [=====================>........] - ETA: 1s - loss: 1.8379 - accuracy: 0.5931
416/512 [=======================>......] - ETA: 1s - loss: 1.8287 - accuracy: 0.5913
448/512 [=========================>....] - ETA: 0s - loss: 1.8086 - accuracy: 0.5887
480/512 [===========================>..] - ETA: 0s - loss: 1.7682 - accuracy: 0.5917
512/512 [==============================] - 6s 12ms/sample - loss: 1.7781 - accuracy: 0.5864

......

Epoch 4/4

 32/512 [>.............................] - ETA: 5s - loss: 0.0034 - accuracy: 1.0000
 64/512 [==>...........................] - ETA: 5s - loss: 0.0066 - accuracy: 1.0000
 96/512 [====>.........................] - ETA: 4s - loss: 0.0094 - accuracy: 1.0000
128/512 [======>.......................] - ETA: 4s - loss: 0.0089 - accuracy: 1.0000
160/512 [========>.....................] - ETA: 4s - loss: 0.0097 - accuracy: 0.9984
192/512 [==========>...................] - ETA: 3s - loss: 0.0100 - accuracy: 0.9987
224/512 [============>.................] - ETA: 3s - loss: 0.0095 - accuracy: 0.9989
256/512 [==============>...............] - ETA: 3s - loss: 0.0088 - accuracy: 0.9990
288/512 [===============>..............] - ETA: 2s - loss: 0.0084 - accuracy: 0.9991
320/512 [=================>............] - ETA: 2s - loss: 0.0083 - accuracy: 0.9992
352/512 [===================>..........] - ETA: 1s - loss: 0.0081 - accuracy: 0.9993
384/512 [=====================>........] - ETA: 1s - loss: 0.0080 - accuracy: 0.9993
416/512 [=======================>......] - ETA: 1s - loss: 0.0080 - accuracy: 0.9994
448/512 [=========================>....] - ETA: 0s - loss: 0.0077 - accuracy: 0.9994
480/512 [===========================>..] - ETA: 0s - loss: 0.0075 - accuracy: 0.9995
512/512 [==============================] - 6s 12ms/sample - loss: 0.0074 - accuracy: 0.9995

在訓練150多批以後，試著進行識別，成功率大概在15%~20%，提高訓練批次以後整個模型的識別率應該會很高

y預測= XAZj y實際= iAzj 預測失敗。
y預測= EbqY y實際= EbqY 預測成功。
y預測= WjMl y實際= WjMl 預測成功。
y預測= Jppw y實際= Jlpw 預測失敗。
y預測= RFQq y實際= RFQq 預測成功。
......
y預測= SRC2 y實際= SaKZ 預測失敗。
y預測= Kfza y實際= KpZa 預測失敗。
y預測= yrct y實際= yrtt 預測失敗。
y預測= LpKb y實際= Lpwb 預測失敗。
y預測= iWWl y實際= iWqL 預測失敗。
預測 100 次 成功率 = 0.16

====================================================

完整程式碼如下，在python3.6.8、tensorflow2.0.0-alpha0 環境下成功執行

https://github.com/yukiti2007/sample/blob/master/python/tensorflow/keras_cnn.py

# coding:utf-8
from captcha.image import ImageCaptcha
import random
from PIL import Image
import numpy as np
import tensorflow as tf

number = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']
alphabet = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u',
            'v', 'w', 'x', 'y', 'z']
ALPHABET = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U',
            'V', 'W', 'X', 'Y', 'Z']
SAVE_PATH = "D:/test/tf2/keras_cnn/"
CHAR_SET = number + alphabet + ALPHABET
CHAR_SET_LEN = len(CHAR_SET)
IMAGE_HEIGHT = 60
IMAGE_WIDTH = 160


def random_captcha_text(char_set=None, captcha_size=4):
    if char_set is None:
        char_set = number + alphabet + ALPHABET

    captcha_text = []
    for i in range(captcha_size):
        c = random.choice(char_set)
        captcha_text.append(c)
    return captcha_text


def gen_captcha_text_and_image(width=160, height=60, char_set=CHAR_SET):
    image = ImageCaptcha(width=width, height=height)

    captcha_text = random_captcha_text(char_set)
    captcha_text = ''.join(captcha_text)

    captcha = image.generate(captcha_text)

    captcha_image = Image.open(captcha)
    captcha_image = np.array(captcha_image)
    return captcha_text, captcha_image


text, image = gen_captcha_text_and_image(char_set=CHAR_SET)
MAX_CAPTCHA = len(text)
print('CHAR_SET_LEN=', CHAR_SET_LEN, ' MAX_CAPTCHA=', MAX_CAPTCHA)


def convert2gray(img):
    if len(img.shape) > 2:
        gray = np.mean(img, -1)
        return gray
    else:
        return img


def text2vec(text):
    vector = np.zeros([MAX_CAPTCHA, CHAR_SET_LEN])
    for i, c in enumerate(text):
        idx = CHAR_SET.index(c)
        vector[i][idx] = 1.0
    return vector


def vec2text(vec):
    text = []
    for i, c in enumerate(vec):
        text.append(CHAR_SET[c])
    return "".join(text)


def get_next_batch(batch_size=128):
    batch_x = np.zeros([batch_size, IMAGE_HEIGHT, IMAGE_WIDTH, 1])
    batch_y = np.zeros([batch_size, MAX_CAPTCHA, CHAR_SET_LEN])

    def wrap_gen_captcha_text_and_image():
        while True:
            text, image = gen_captcha_text_and_image(char_set=CHAR_SET)
            if image.shape == (60, 160, 3):
                return text, image

    for i in range(batch_size):
        text, image = wrap_gen_captcha_text_and_image()
        image = tf.reshape(convert2gray(image), (IMAGE_HEIGHT, IMAGE_WIDTH, 1))
        batch_x[i, :] = image
        batch_y[i, :] = text2vec(text)

    return batch_x, batch_y


def crack_captcha_cnn():
    model = tf.keras.Sequential()

    model.add(tf.keras.layers.Conv2D(32, (3, 3)))
    model.add(tf.keras.layers.PReLU())
    model.add(tf.keras.layers.MaxPool2D((2, 2), strides=2))

    model.add(tf.keras.layers.Conv2D(64, (5, 5)))
    model.add(tf.keras.layers.PReLU())
    model.add(tf.keras.layers.MaxPool2D((2, 2), strides=2))

    model.add(tf.keras.layers.Conv2D(128, (5, 5)))
    model.add(tf.keras.layers.PReLU())
    model.add(tf.keras.layers.MaxPool2D((2, 2), strides=2))

    model.add(tf.keras.layers.Flatten())
    model.add(tf.keras.layers.Dense(MAX_CAPTCHA * CHAR_SET_LEN))
    model.add(tf.keras.layers.Reshape([MAX_CAPTCHA, CHAR_SET_LEN]))

    model.add(tf.keras.layers.Softmax())

    return model


def train():
    try:
        model = tf.keras.models.load_model(SAVE_PATH + 'model')
    except Exception as e:
        print('#######Exception', e)
        model = crack_captcha_cnn()

    model.compile(optimizer='Adam',
                  metrics=['accuracy'],
                  loss='categorical_crossentropy')

    for times in range(500000):
        batch_x, batch_y = get_next_batch(512)
        print('times=', times, ' batch_x.shape=', batch_x.shape, ' batch_y.shape=', batch_y.shape)
        model.fit(batch_x, batch_y, epochs=4)
        print("y預測=\n", np.argmax(model.predict(batch_x), axis=2))
        print("y實際=\n", np.argmax(batch_y, axis=2))

        if 0 == times % 10:
            print("save model at times=", times)
            model.save(SAVE_PATH + 'model')


def predict():
    model = tf.keras.models.load_model(SAVE_PATH + 'model')
    success = 0
    count = 100
    for _ in range(count):
        data_x, data_y = get_next_batch(1)
        prediction_value = model.predict(data_x)
        data_y = vec2text(np.argmax(data_y, axis=2)[0])
        prediction_value = vec2text(np.argmax(prediction_value, axis=2)[0])

        if data_y == prediction_value:
            print("y預測=", prediction_value, "y實際=", data_y, "預測成功。")
            success += 1
        else:
            print("y預測=", prediction_value, "y實際=", data_y, "預測失敗。")
        print("預測", count, "次", "成功率=", success / count)

    pass


if __name__ == "__main__":
    train

Tensorflow2.0——利用卷積神經網路實現簡單的驗證碼識別

之前用tensorflow1.13做了一個驗證碼識別的小東西準確率還是相當高的（當然其中大部分邏輯都是從網上很多大神的部落格中借鑑

字元型圖片驗證碼，使用tensorflow實現卷積神經網路，進行驗證碼識別CNN

本專案使用卷積神經網路識別字符型圖片驗證碼，其基於 TensorFlow 框架。它封裝了非常通用的校驗、訓練、驗證、識別和呼叫 API，極大地減低了識別字符型驗證碼花費的時間和精力。專案地址： https://github.com/nickliqian/cnn_captcha

機器學習：利用卷積神經網路實現影象風格遷移 (一)

相信很多人都對之前大名鼎鼎的 Prisma 早有耳聞，Prisma 能夠將一張普通的影象轉換成各種藝術風格的影象，今天，我們將要介紹一下Prisma 這款軟體背後的演算法原理。就是發表於 2016 CVPR 一篇文章， “ Image Style Transf

深度學習入門——利用卷積神經網路實現MNIST手寫數字識別

MNIST（Modified National Institute of Standards and Technology）資料庫是一個大型手寫數字資料庫，通常用於訓練各種影象處理系統。該資料庫還廣泛用於機器學習領域的培訓和測試。它是通過重新打亂來自NIST原始資料集的樣本而

利用卷積神經網路進行手寫數字識別詳解

import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data ‘’‘可分別用這兩個函式建立卷積核(kernel)與偏置(bias)’’’ #返回一個給定形狀的變數，並自動以截斷正態分佈

卷積神經網路實現多個數字識別

from keras.models import Modelfrom keras.layers import *import tensorflow as tf# This returns a tensorinputs = Input(shape=(28, 140, 1))conv_11 = Conv2D(fi

吳恩達作業9：卷積神經網路實現手勢數字的識別（基於tensorflow）

提供資料集程式碼放在cnn_utils.py裡。 import math import numpy as np import h5py import matplotlib.pyplot as plt import tensorflow as tf from tensorfl

Tensorflow學習教程------利用卷積神經網路對mnist資料集進行分類_利用訓練好的模型進行分類

#coding:utf-8 import tensorflow as tf from PIL import Image,ImageFilter from tensorflow.examples.tutorials.mnist import input_data def imageprepare(ar

Tensorflow學習筆記(五)——卷積神經網路實現

今天來實現tensorflow架構下的卷積神經網路，首先了解清楚我們要構建的網路架構，資料集還是用mnist，所以輸入還是28X28。建立的卷積神經網路架構是：卷積層->pooling層->卷積層->pooling層->全連線層1->全連線層2。全連線層

實時卷積神經網路實現人臉檢測和情感/性別分類

本文提出了一種通用的實現方法卷積神經網路（CNN）構建框架設計實時CNN。建立實時面部檢測視覺系統，實現性別分類和情緒分類。其中：IMDB性別分類測試準確率：96％；fer2013情緒分類測試準確率：66％。具體效果如下圖：這裡提供下資料集下載： 1、情緒

深度學習入門——利用卷積神經網路訓練CIFAR—10資料集

CIFAR-10資料集簡介 CIFAR-10是由Hinton的學生Alex Krizhevsky和Ilya Sutskever整理的一個用於普適物體的小型資料集。它一共包含10個類別的RGB彩色圖片：飛機、汽車、鳥類、貓、鹿、狗、蛙類、馬、船：資料集包含50000張訓練圖片和1000

深度學習：tensorflow入門：卷積神經網路實現MNIST手寫字型識別

程式碼中./data/mnist/input_data/為真實MNIST資料集的路徑 import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data # 定義

利用卷積神經網路進行阿爾茨海默病分類的神經影像模式融合論文研讀筆記

原文連結發表： 2018.11.13 摘要阿爾茨海默病（AD）分類的自動化方法具有巨大的臨床益處，並可為防治該疾病提供見解。深層神經網路演算法通常使用諸如MRI和PET的神經學成像資料，但是還沒有對這些模式進行全面和平衡的比較。為了準確確定每個成像變體的相對強度，本研究使用阿爾茨海默病神經成像倡議（A

載入卷積神經網路實現手寫體數字識別

上一篇部落格中，我們已經訓練好了模型接下來我們要載入模型並識別真實場景下的一個手寫體數字在此之前，我們先要準備好一張28*28畫素的影象（可用ps製作），然後通過處理將畫素的強度值變為0-1之間，之後即可輸入模型進行識別。儲存已訓練的模型檔案如下：程式

利用卷積神經網路識別手寫數字

1.測試資料準備 1.我們使用的測試資料，可以直接從keras.datasets.mnist匯入 import numpy as np import seaborn as sns import matplotlib.pyplot as plt plt.rcParams['figure

python神經網路案例——CNN卷積神經網路實現mnist手寫體識別

全棧工程師開發手冊（作者：欒鵬）載入樣本資料集首先我們要有手寫體的資料集檔案我們實現一個MNIST.py檔案，專門用來讀取手寫體檔案中的資料。 # -*- coding: UTF-8 -*- # 獲取手寫資料。

深度學習框架tensorflow學習與應用10（MNSIT卷積神經網路實現）

import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data mnist = input_data.read_data_sets('F:/PY/MNIST_data/',

基於卷積神經網路實現圖片風格的遷移 3

實現圖片的風格轉換一、實驗介紹 1.1 實驗內容上一節課我們介紹了經典的CNN模型 VGG ，以及影象風格遷移演算法的基本原理。本節課我們將使用另外一個經典的模型 GoogLenet 來實現我們的專案（這是由於環境的限制，用 googlenet可以更快的完成我們的風格轉換），如果你完成了上節課的作業，那

Tensorflow卷積神經網路實現MNIST手寫資料集識別

模型建的不好，最終只有85%左右的準確率，後面繼續改進吧 #卷積神經網路API 卷積層：tf.nn.conv2d(input, #輸入張量，具有[batch, height, width, chann

【python keras實戰】利用VGG卷積神經網路進行手寫字型識別

# encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') import numpy as np from keras.datasets import mnist impor

Tensorflow2.0——利用卷積神經網路實現簡單的驗證碼識別

相關推薦