1. 程式人生 > >文字識別:CRNN

文字識別:CRNN

https .com 遞推 rnn 哪裏 htbox 技術分享 好的 圖1

技術分享圖片

知乎:一文讀懂CRNN+CTC文本行識別 (詳解 CTC loss)

來自: https://zhuanlan.zhihu.com/p/43534801

文字檢測主要解決的問題是哪裏有文字,文字的範圍有多大,即定位文本行的所在位置和範圍及其布局。

文本識別是在文本行定位的基礎上,對文本行內容進行識別,將圖像中的文本信息轉化為文字信息。文字識別主要解決的問題是每個文字是什麽。

所以一般來說,從自然場景圖片中進行文本行識別,需要包括三個步驟:

  • 圖像預處理
  • 文字檢測定位文本行區域
  • 對定位好的文本行圖片進行識別

技術分享圖片圖1 文字識別的步驟

本文的重點是如何對已經定位好的文本行圖片進行識別。

技術分享圖片

常用文本行識別算法主要有兩個框架:

  • CNN+RNN+CTC(CRNN+CTC)
  • CNN+Seq2Seq+Attention

CTC總結

CTC是一種Loss計算方法,用CTC代替Softmax Loss,訓練樣本無需對齊。

CTC特點:

  • 同時引入blank字符,解決有些位置沒有字符的問題
  • 通過遞推,快速計算梯度

......

CRNN+CTC總結

這篇文章的核心,就是將CNN/LSTM/CTC三種方法結合:

  • 首先CNN提取圖像卷積特征
  • 然後LSTM進一步提取圖像卷積特征中的序列特征
  • 最後引入CTC解決訓練時字符無法對齊的問題

提供了一種end2end文本行圖片算算法。

文字識別:CRNN