1. 程式人生 > >OCR系列論文學習筆記連結

OCR系列論文學習筆記連結

良心博主整理的合集:ocr合集

1. Synthetic Data for Text Localisation in Natural Images     CVPR2016  特點是使用synthetic data and FCRN.   實現了img內文字行的識別。

感覺這篇paper的核心在於生成synthetic data 的演算法部分,後續的FCRN沒有很驚豔吧...

我自己寫了一篇關於FCRN結構的學習筆記,歡迎大家指正:text spotting之FCRN

2. Detecting Oriented Text in Natural Images by Linking Segments     

CVPR2017  特點是改進了ssd,即一種新的SegLink結構,使得box+angle資訊 and link 資訊同時被學習。但只實現img內文字行的檢測。

3. Towards End-to-end Text Spotting with Convolutional Recurrent Neural Networks  ICCV2017      特點是:用了 Text Proposal Network(TPN) + Region Feature Encoder(RFE) + Text Detection Network(TDN) + Text Recognition Network(TRN).  在TPN中使用 multiple scale sliding windows 並進行 concatenated。這種操作更有利於文字行的proposals檢測(因為文字行,是長條長條的可能性比較大...)。RFE之前的Region of Interest pooling(RoI)利用1:2的 pooling size,再通過RFE中的LSTM使最末層輸出fixed length representations。另外在TRN中使用:LSTMs with attention mechanism to decode the sequential features into words. 這也是一大創新點。。

4.  WeText: Scene Text Detection underWeak Supervision    ICCV2017  特點是使用弱監督和半監督思想去解決 labeled data 少的問題。就像之前許多 paper 用 synthetic data 去訓model,也是因為 labeled data 太少了。

5. Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework   ICCV2017 

6. An End-to-End Trainable Neural Network for Image-based Sequence 

Recognition and Its Application to Scene Text Recognition      PAMI2017   crnn結構     CNN+LSTM+CTC

論文筆記連結:crnn

程式碼連結:crnn

中文翻譯連結:crnn

7. CTC :  Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks

論文筆記連結:CTC

8. Detecting Text in Natural Image with Connectionist Text Proposal Network    ECCV2016   這就是傳說中的CTPN接面構了:使用固定寬度(16)的anchor去檢測小框們,再利用文字線構造演算法把小框們連線成文字行。

論文筆記連結:CTPN1     、   CTPN2

中文翻譯連結:CTPN

9. PixelLink: Detecting Scene Text via Instance Segmentation      AAAI2018   特點是把檢測問題用分割的途徑去處理解決。文章的總體思路也蠻輕簡的:segment + 8鄰域links    不過沒有開源......

10. R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection    2017arXiv    首先是RPN生成軸對稱的 proposal boxes,然後使用 ROI pooling 進行又一次的特徵提取,得到軸對稱的bbox、傾斜bbox。另一亮點是使用傾斜非最大擬製,減少漏檢。對於各個方向(包含豎直)文字均有不錯的檢測效果。