場景文字識別Sliding Convolution筆記

阿新 • • 發佈：2019-02-07

方法優勢：

（1）相對於基於先分割再識別的方法，該方法避免了複雜的字元分割過程。

（2）避免了rnn訓練過程中的梯度消失和梯度爆炸的問題，使得訓練過程比較容易

（3）相對於基於單詞識別的方法，該基於字元識別的方法可以識別基於單詞的方法不能識別的單詞

（4）識別過程可以高度並行化

整體識別流程圖：

首先對輸入圖片進行overlap型的滑動視窗掃描（英文：步長step為4，視窗大小為32*32，中文：步長step為8，視窗大小為32*40）。並且將整個的輸入圖片按照視窗大小切割出來。然後將所有切割出的圖片按照batch方向輸入神經網路。神經網路會輸出分類後的結果。然後Transcription Layer將這些分類結果按照順序合併起來，然後送入

CTC中。CTC會預測出最終的識別結果。

網路結構：

其中，k，s，p分別代表卷積核大小，滑動步長，padding大小

和crnn的對比：

crnn是白翔老師的那篇文章。和這篇文章有異曲同工之處。

（1）crnn整體結構為CNN+RNN+CTC的結構，這篇Sliding Convolution結構為CNN+CTC結構。（2）Sliding Convolution文章對於輸入的圖片做了切割，然後切割好的圖片可以跑batch，然後得出每個分割圖片的識別結果。而crnn是一行文字圖片直接輸入，從處理時間上看，沒有Sliding Convolution更加效率。

（2）Sliding Convolution文章的結構使用了全連線層，輸入圖片大小被固定為

32*32。而crnn只保證高度為32，輸入寬度不受限制。

自己的一些想法：

（1）Sliding Convolution文章的網路結構，最後的2個全連線層可以換為1*1卷積層，或者RNN。

（2）通過Sliding Convolution文章中跑batch的思想，對於crnn，也可以將輸入圖片平均切分成幾份。然後走batch。注意這裡只走cnn的batch。cnn跑完後，做一個batch方向的concat。然後輸入rnn+ctc。同樣可以實現batch思想的加速。同時對訓練過程不會有影響，還是使用原始的訓練就可以，而測試程式，只需要再cnn之後加個concat操作既可。

這裡我自己修改的程式是使用的reshape操作實現的。由於我這裡是對輸入圖片平均切分的。所以切的份數太多，識別效果會有影響。切的份數越多加速越明顯，但是加速比不是很明顯。只有微量的加速。

CTC基礎建議看這篇：

自己的實現：

場景文字識別Sliding Convolution筆記

場景文字識別Sliding Convolution筆記

場景文字識別中的問題

場景文字識別中，將文字行切割為單字元

基於注意力模型和卷積迴圈神經網路的中文自然場景文字識別

CTPN/CRNN的OCR自然場景文字識別理解（二）

OCR場景文字識別：文字檢測+文字識別

Unity 影象識別接入Face++ 進行場景識別和文字識別

[深度學習]場景文字檢測與識別

OCR EAST: An Efficient and Accurate Scene Text Detector 自然場景下的文字識別演算法詳解

【原】Coursera—Andrew Ng機器學習—課程筆記 Lecture 18—Photo OCR 應用例項:圖片文字識別

[機器學習筆記]Note16--應用示例：影象文字識別

Andrew NG 機器學習筆記-week11-應用例項：圖片文字識別（Application Example：Photo OCR）

場景文字檢測與識別相關論文

助力中文文字識別突破，美團公開首個真實場景招牌影象資料集

如何使用捷速OCR文字識別軟件

OCR文字識別軟件哪家強

爬蟲——文字識別

C#圖片文字識別

OCR文字識別軟件：數字信息化不可或缺的重要組成部分

OCR文字識別

場景文字識別Sliding Convolution筆記

相關推薦