OCR系列論文學習筆記連結
良心博主整理的合集:ocr合集
1. Synthetic Data for Text Localisation in Natural Images CVPR2016 特點是使用synthetic data and FCRN. 實現了img內文字行的識別。
感覺這篇paper的核心在於生成synthetic data 的演算法部分,後續的FCRN沒有很驚豔吧...
我自己寫了一篇關於FCRN結構的學習筆記,歡迎大家指正:text spotting之FCRN
2. Detecting Oriented Text in Natural Images by Linking Segments
3. Towards End-to-end Text Spotting with Convolutional Recurrent Neural Networks ICCV2017 特點是:用了 Text Proposal Network(TPN) + Region Feature Encoder(RFE) + Text Detection Network(TDN) + Text Recognition Network(TRN). 在TPN中使用 multiple scale sliding windows 並進行 concatenated。這種操作更有利於文字行的proposals檢測(因為文字行,是長條長條的可能性比較大...)。RFE之前的Region of Interest pooling(RoI)利用1:2的 pooling size,再通過RFE中的LSTM使最末層輸出fixed length representations。另外在TRN中使用:LSTMs with attention mechanism to decode the sequential features into words. 這也是一大創新點。。
4. WeText: Scene Text Detection underWeak Supervision ICCV2017 特點是使用弱監督和半監督思想去解決 labeled data 少的問題。就像之前許多 paper 用 synthetic data 去訓model,也是因為 labeled data 太少了。
5. Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework ICCV2017
6. An End-to-End Trainable Neural Network for Image-based Sequence
論文筆記連結:crnn
程式碼連結:crnn
中文翻譯連結:crnn
7. CTC : Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks
8. Detecting Text in Natural Image with Connectionist Text Proposal Network ECCV2016 這就是傳說中的CTPN接面構了:使用固定寬度(16)的anchor去檢測小框們,再利用文字線構造演算法把小框們連線成文字行。
中文翻譯連結:CTPN
9. PixelLink: Detecting Scene Text via Instance Segmentation AAAI2018 特點是把檢測問題用分割的途徑去處理解決。文章的總體思路也蠻輕簡的:segment + 8鄰域links 不過沒有開源......
10. R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection 2017arXiv 首先是RPN生成軸對稱的 proposal boxes,然後使用 ROI pooling 進行又一次的特徵提取,得到軸對稱的bbox、傾斜bbox。另一亮點是使用傾斜非最大擬製,減少漏檢。對於各個方向(包含豎直)文字均有不錯的檢測效果。