圖像文字識別(OCR)用什麽算法小結
阿新 • • 發佈:2018-06-19
說明 3.2 ecc AC egl 之間 算法 bsp 暴力
說明:主要考慮深度學習的方法,傳統的方法不在考慮範圍之內。
1.文字識別步驟
1.1detection:找到有文字的區域(proposal)。
1.2classification:識別區域中的文字。
2.文字檢測
文字檢測主要有兩條線,兩步法和一步法。
2.1兩步法:faster-rcnn.
2.2一步法:yolo。相比於兩步法,一步法速度更快,但是accuracy有損失。
文字檢測按照文字的角度分。
2.1水平文字檢測:四個自由度,類似於物體檢測。水平文字檢測比較好的算法是2016ECCV喬宇老師團隊的CTPN。
2.2傾斜文字檢測:文本框是不規則的四邊形,八個自由度。傾斜文字檢測個人比較喜歡的方法是2017CVPR的EAST和Seglink。套路:檢測文本框->用radon hough變換等方法進行文本矯正->通過投影直方圖分割出單行的文本的圖片->最後對單行OCR。
3.文字識別
只考慮了不需要對文字進行分割。
3.1定長的,各個字符之間看成是獨立的:multi-digit number。
3.2不定長的:RNN/LSTM/GRU+CTC。白翔老師團隊的CRNN寫的比較清楚。
3.3不定長的attention-mechanism(CNN+RNN+Attention):分為hard attention(直接給出hard location,不能直接暴力pb)、soft attention(可以暴力pb)、gradient-base attention。
參考:https://www.zhihu.com/question/20191727
圖像文字識別(OCR)用什麽算法小結