端到端的OCR：基於CNN的實現

阿新 • • 發佈：2019-01-08

OCR是一個古老的問題。這裡我們考慮一類特殊的OCR問題，就是驗證碼的識別。傳統做驗證碼的識別，需要經過如下步驟：

1. 二值化
2. 字元分割
3. 字元識別

這裡最難的就是分割。如果字元之間有粘連，那分割起來就無比痛苦了。

最近研究深度學習，發現有人做端到端的OCR。於是準備嘗試一下。一般來說目前做基於深度學習的OCR大概有如下套路：

1. 把OCR的問題當做一個多標籤學習的問題。4個數字組成的驗證碼就相當於有4個標籤的圖片識別問題（這裡的標籤還是有序的），用CNN來解決。
2. 把OCR的問題當做一個語音識別的問題，語音識別是把連續的音訊轉化為文字，驗證碼識別就是把連續的圖片轉化為文字，用CNN+LSTM+CTC來解決。

目前第1種方法可以做到90%多的準確率（4個都猜對了才算對），第二種方法我目前的實驗還只能到20%多，還在研究中。所以這篇文章先介紹第一種方法。

下圖是一些這個驗證碼的例子：

python-captcha

可以看到這裡面有粘連，也有形變，噪音。所以我們可以看看用CNN識別這個驗證碼的效果。

首先，我們定義一個迭代器來輸入資料，這裡我們每次都直接呼叫python-captcha這個庫來根據隨機生成的label來生成相應的驗證碼圖片。這樣我們的訓練集相當於是無窮大的。

class OCRIter(mx.io.DataIter):
def __init__(self, count, batch_size, num_label, height, width):
    super(OCRIter, self).__init__()
    self.captcha = ImageCaptcha(fonts=['./data/OpenSans-Regular.ttf'])
    self.batch_size = batch_size
    self.count = count
    self.height = height
    self.width = width
    self.provide_data = [('data', (batch_size, 3, height, width))]
    self.provide_label = [('softmax_label', (self.batch_size, num_label))]

def __iter__(self):
    for k in range(self.count / self.batch_size):
        data = []
        label = []
        for i in range(self.batch_size):
            # 生成一個四位數字的隨機字串
            num = gen_rand() 
            # 生成隨機字串對應的驗證碼圖片
            img = self.captcha.generate(num)
            img = np.fromstring(img.getvalue(), dtype='uint8')
            img = cv2.imdecode(img, cv2.IMREAD_COLOR)
            img = cv2.resize(img, (self.width, self.height))
            cv2.imwrite("./tmp" + str(i % 10) + ".png", img)
            img = np.multiply(img, 1/255.0)
            img = img.transpose

端到端的OCR：基於CNN的實現

OCR是一個古老的問題。這裡我們考慮一類特殊的OCR問題，就是驗證碼的識別。傳統做驗證碼的識別，需要經過如下步驟： 1. 二值化 2. 字元分割 3. 字元識別這裡最難的就是分割。如果字元之間有粘連，那分割起來就無比痛苦了。最近研究深度學習，發現有人做端到端的O

前後端分離實踐：基於vue實現網站前臺的權限管理

Vue.js Javascript做為當下的熱門語言，用途很廣泛，從前端到後端處處可見其存在，該技術如今在我們項目內部也大量使用來開發諸如CMS系統以及其他其他一些數據分析系統的前端頁面，為此個人非常感興趣並將其作為帽子卡的擴展內容來進行課余學習。 Javascript框架鱗次櫛比，但基本原理大致相

實驗：基於keepalived實現兩臺realserver服務器中的nginx和php-fpm服務互為主從

基於keepalived實現nginx和php-fpm互為主從基於keepalived實現兩臺realserver服務器中的nginx和php-fpm服務互為主從思路：利用兩個VIP，一個定位nginx，一個定位php-fpm步驟：1、準備兩臺基於LNMP架構的服務器（能夠提供正常的web服務）2、在ng

基礎運維：基於IP實現網頁分流

cgi blog loopback leo root local 重啟nginx sgi gate 一、說明想要流量分流，在一個接口上設置多IP的方式，是可以實現的，在互聯網上需要訪問的域名，一般人並不知道什麽是IP，就是知道IP，可能他們理解的IP（知識財產權）跟你理

分散式學習筆記七：基於zookeeper實現分散式鎖

一、分散式鎖介紹分散式鎖主要用於在分散式環境中保護跨程序、跨主機、跨網路的共享資源實現互斥訪問，以達到保證資料的一致性。二、架構介紹 &nb

SSE影象演算法優化系列二十三: 基於value-and-criterion structure 系列濾波器（如Kuwahara，MLV，MCV濾波器）的優化。 SSE影象演算法優化系列十四：區域性均方差及區域性平方差演算法的優化 SSE影象演算法優化系列七：基於SSE實現的極速的矩形核腐蝕和膨脹（

基於value-and-criterion structure方式的實現的濾波器在原理上其實比較簡單，感覺下面論文中得一段話已經描述的比較清晰了，直接貼英文吧，感覺翻譯過來反而失去了原始的韻味了。 T

Django學習【第22篇】：基於Ajax實現的登入基於ajax實現的登入

基於ajax實現的登入一、需要知道的新知識點 1、重新整理驗證碼。給src屬性加一個？號。加個？會重新去請求

例項：基於4412-實現新增自己的系統呼叫函式（學習《Linux核心設計與實現》記錄）

學習筆記：在學習《linux核心設計與實現》過程中，瞭解到：在Linux中，系統呼叫是使用者空間訪問核心的唯一手段（除異常和陷入之外）。系統呼叫主要有三個作用： ①：為使用者空間提供一個硬體的抽象介面。 ②：系統呼叫保證了系統的穩定和安全。 ③：為了實現多工和虛擬記憶體（應用程

AR實踐：基於ARKit實現電影中的全息視訊會議

作者簡介：龔宇華，聲網Agora.io 首席iOS研發工程師，負責iOS端移動應用產品設計和技術架構。去年中旬，蘋果在 WWDC2017 推出了 ARKit。通過它，開發者可以更加快速地在 iOS 平臺開發 AR 應用，利用鏡頭將虛擬照進現實。最近蘋果還增強了 iOS

python tensorflow 基於cnn實現手寫數字識別

感覺剛才的程式碼不夠給力，所以再儲存一份基於cnn的手寫數字自識別的程式碼 # -*- coding: utf-8 -*- import tensorflow as tf from tensorflow.examples.tutorials.mnist

自學大資料：基於Solr實現HBase的文字索引

前言最近接觸的專案中，需要針對HBase的資料進行索引查詢，主要支援中文查詢，分頁查詢等。在此情況下，學習了搜尋伺服器solr。總結了一些方法和經驗，正好可以分享個大家，鼓勵自己，共同學習。使用目的 HBase目前只支援對rowkey的一級索引，對於二級索引還不支援，

Android：基於EditText實現撤銷和重做機制

一、場景描述和思路分析說到撤銷和重做想必大家腦海中浮現的一定是Ctrl+Z、Ctrl+Y這兩個快捷鍵，平常生產開發的時候也少不了要和這兩個按鍵打交道。作為一個開發者筆者自然對其中的實現方法感到好奇，想必閱讀此文的你也是一樣的。如果

[052]TensorFlow Layers指南：基於CNN的手寫數字識別

TensorFlow Layers module 為容易的建立一個神經網路提供了高水平的API介面。它提供了很多方法幫助建立dense（全連線）層和卷積層，增加啟用函式和應用dropout做歸一化。在這個教程中，你會學到如何用layers構建一個卷積神經網路用於

SpringBoot | 第三十八章：基於RabbitMQ實現訊息延遲佇列方案

前言前段時間在編寫通用的訊息通知服務時，由於需要實現類似通知失敗時，需要延後幾分鐘再次進行傳送，進行多次嘗試後，進入定時傳送機制。此機制，在原先對接銀聯支付時，銀聯的非同步通知也是類似的，在第一次通知失敗後，支付標準服務會重發，最多傳送五次，每次的間隔時間為1、4、8、16分鐘等。本文就簡單講解下使用Ra

動手造輪子：基於 Redis 實現 EventBus

動手造輪子：基於 Redis 實現 EventBus Intro 上次我們造了一個簡單的基於記憶體的 EventBus，但是如果要跨系統的話就不合適了，所以有了這篇基於 Redis 的 EventBus 探索。本文的實現是基於 StackExchange.Redis 來實現的。 RedisEventStor

Knative 實戰：基於 Kafka 實現訊息推送

作者 | 元毅阿里雲智慧事業群高階開發工程師導讀：當前在 Knative 中已經提供了對 Kafka 事件源的支援，那麼如何基於 Kafka 實現訊息推送呢？本文作者將以阿里雲 Kafka 產品為例，給大家解鎖這一新的姿勢。背景訊息佇列 for Apache Kafka 是

最簡單的基於FFmpeg的移動端樣例：IOS HelloWorld

目的 mes 真機 roo mux 能夠 ted 配置 details =====================================================最簡單的基於FFmpeg的移動端樣例系列文章列表：最簡單的基於FFmpeg的移動端樣例：An

最簡單的基於FFmpeg的移動端樣例：IOS 視頻解碼器

視頻播放 contex avcodec video pad align b+ getc tar =====================================================最簡單的基於FFmpeg的移動端樣例系列文章列表：最簡單的基於FFm

Https系列之二：https的SSL證書在服務器端的部署，基於tomcat,spring boot

onf 基於分享 height 轉化自簽名 size class ont 一：本文的主要內容介紹 CA證書的下載及相應文件的介紹 CA證書在tomcat的部署 CA證書在spring boot的部署自簽名證書的部署二：一些內容的回顧在Https系列之一中已介

基於jrtplib實現的最簡單服務端和客戶端

使用Jrtplib庫實現服務端和客戶端通訊程式碼都是直接從jrtplib自帶例子中摳出來的，就是為了方便研究，話不多說直接上菜服務端程式碼： /* Here's a small IPv4 example for receiver */ /* #incl

端到端的OCR：基於CNN的實現

相關推薦