文字識別:CRNN
阿新 • • 發佈:2018-11-26
https .com 遞推 rnn 哪裏 htbox 技術分享 好的 圖1
知乎:一文讀懂CRNN+CTC文本行識別 (詳解 CTC loss)
來自: https://zhuanlan.zhihu.com/p/43534801
文字檢測主要解決的問題是哪裏有文字,文字的範圍有多大,即定位文本行的所在位置和範圍及其布局。
文本識別是在文本行定位的基礎上,對文本行內容進行識別,將圖像中的文本信息轉化為文字信息。文字識別主要解決的問題是每個文字是什麽。
所以一般來說,從自然場景圖片中進行文本行識別,需要包括三個步驟:
- 圖像預處理
- 文字檢測定位文本行區域
- 對定位好的文本行圖片進行識別
圖1 文字識別的步驟
本文的重點是如何對已經定位好的文本行圖片進行識別。
常用文本行識別算法主要有兩個框架:
- CNN+RNN+CTC(CRNN+CTC)
- CNN+Seq2Seq+Attention
CTC總結
CTC是一種Loss計算方法,用CTC代替Softmax Loss,訓練樣本無需對齊。
CTC特點:
- 同時引入blank字符,解決有些位置沒有字符的問題
- 通過遞推,快速計算梯度
......
CRNN+CTC總結
這篇文章的核心,就是將CNN/LSTM/CTC三種方法結合:
- 首先CNN提取圖像卷積特征
- 然後LSTM進一步提取圖像卷積特征中的序列特征
- 最後引入CTC解決訓練時字符無法對齊的問題
提供了一種end2end文本行圖片算算法。
文字識別:CRNN