1. 程式人生 > 實用技巧 >ECCV 2020 論文大盤點 - OCR 篇

ECCV 2020 論文大盤點 - OCR 篇

本文盤點ECCV 2020與OCR 相關論文,包括Text Detection(文字檢測)、Text Recognition(文字識別)、神經架構搜尋+文字識別、文字超解析度、Scene text spotting(將檢測和識別放一起,端到端文字識別)。

Sequential Deformation for Accurate Scene Text Detection

作者 |Shanyu Xiao, Liangrui Peng, Ruijie Yan, Keyu An, Gang Yao, Jaesik Min

單位 | 清華;現代汽車集團

論文 |https://www.ecva.net/papers/eccv_2020/

papers_ECCV/papers/123740103.pdf

備註 |ECCV 2020

An End-to-End OCR Text Re-organization Sequence Learning for Rich-text Detail Image Comprehension

作者 |Liangcheng Li, Feiyu Gao, Jiajun Bu, Yongpan Wang, Zhi Yu, Qi Zheng

單位 | 浙江大學;阿里巴巴等

論文 |https://www.ecva.net/papers/eccv_2020/

papers_ECCV/papers/123700086.pdf

備註 |ECCV 2020

PlugNet: Degradation Aware Scene Text Recognition Supervised by a Pluggable Super-Resolution Unit

作者 |Yongqiang Mou, Lei Tan, Hui Yang, Jingying Chen, Leyuan Liu, Rui Yan, Yaohong Huang

單位 | ImageDT圖匠資料;華中師範大學

論文 |https://www.ecva.net/papers/eccv_2020/

papers_ECCV/papers/123600154.pdf

備註 |ECCV 2020

作者提出一個含有可插拔超分辨單元的端到端學習的文字識別方法(PlugNet),極大的解決了低質量影象識別的難題。

Adaptive Text Recognition through Visual Matching

作者 |Chuhan Zhang,Ankush Gupta,Andrew Zisserman

單位 | 牛津大學;DeepMind

論文 |https://arxiv.org/abs/2009.06610

程式碼 |https://github.com/Chuhanxx/FontAdaptor

主頁|http://www.robots.ox.ac.uk/~vgg/research/FontAdaptor20/

備註 |ECCV 2020

本文旨在解決文件中文字識別的廣泛性與靈活性。引入一個新模型,利用語言中字元的重複性,將視覺表徵學習和語言建模階段分離,將文字識別變成 shape matching 問題。

RobustScanner: Dynamically Enhancing Positional Clues for Robust Text Recognition

作者 |Xiaoyu Yue,Zhanghui Kuang,Chenhao Lin,Hongbin Sun,Wayne Zhang

單位 | 商湯;西安交通大學

論文 |https://arxiv.org/abs/2007.07542

備註 |ECCV 2020

AutoSTR: Efficient Backbone Search for Scene Text Recognition

作者 |Hui Zhang,Quanming Yao,Mingkun Yang,Yongchao Xu,Xiang Bai

單位 | 華中科技大學;第四正規化(北京)技術有限公司

論文 |https://arxiv.org/abs/2003.06567

程式碼 |https://github.com/AutoML-4Paradigm/AutoSTR

備註 |ECCV 2020

本項工作,作者受神經架構搜尋(NAS)的成功啟發,可以識別出比人類設計更好的架構。提出自動STR(AutoSTR)來搜尋依賴於資料的框架,以提高文字識別效能。

為STR設計了一個特定領域的搜尋空間,其中包含了對操作的選擇和對下采樣路徑的約束。然後,提出一種兩步搜尋演算法,將操作和下采樣路徑解耦,在給定空間中進行高效搜尋。

實驗證明,通過搜尋資料相關的骨幹,AutoSTR可以在標準基準上以更少的FLOPS和模型引數超越最先進的方法。

Scene Text Image Super-resolution in the wild

作者 |Wenjia Wang,Enze Xie,Xuebo Liu,Wenhai Wang,Ding Liang,Chunhua Shen,Xiang Bai

單位 | 商湯;香港大學;南京大學;阿德萊德大學;華中科技大學

論文 |https://arxiv.org/abs/2005.03341

程式碼 |https://github.com/JasonBoy1/TextZoom

備註 |ECCV 2020

介紹了第一個真正意義上的配對場景文字超解析度資料集TextZoom,採用不同的焦距。用三個子集來標註和分配資料集:分別是簡單、中等和困難。

通過比較和分析在合成LR和提出的LR影象上訓練的模型,證明了所提出的資料集 TextZoom 的優越性,並從不同方面證明了場景文字SR的必要性。

另外該問還提出一個新的文字超解析度網路,有三個新穎的模組。通過在TextZoom上的訓練和測試,以及公平的比較,證明它明顯超過了7種有代表性的SR方法。

Scene text spotting

Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting

作者 |Minghui Liao,Guan Pang,Jing Huang,Tal Hassner,Xiang Bai

單位 | 華中科技大學;Facebook AI

論文 |https://arxiv.org/abs/2007.09482

程式碼 |https://github.com/MhLiao/MaskTextSpotterV3

解讀|Mask TextSpotter v3 來了!最強端到端文字識別模型

備註 |ECCV 2020

目前的方法多用 RPN 來進行 integrating detection and recognition(集檢測與識別一體)的場景文字檢測,但在極端長寬比或不規則形狀的文字以及密集定向的文字中進行操作有一定的困難。


因此,本文提出Mask TextSpotter v3,一個端到端可訓練的場景文字發現器,採用 Segmentation Proposal Network (SPN) 來代替 RPN。SPN是無錨的,可以準確地表示任意形狀的提案,所以優於 RPN。Mask TextSpotter v3 可以處理極端長寬比或不規則形狀的文字例項,並且識別精度不會受到附近文字或背景噪聲的影響。

具體來說,在Rotated ICDAR 2013資料集上的表現比最先進的方法高出21.9%(旋轉魯棒性),在Total-Text資料集上的表現比最先進的方法高出5.9%(形狀魯棒性),在MSRA-TD500資料集上的表現也達到了最先進的水平(長寬比魯棒性)。

AE TextSpotter: Learning Visual and Linguistic Representation for Ambiguous Text Spotting

作者 |Wenhai Wang,Xuebo Liu,Xiaozhong Ji,Enze Xie,Ding Liang,Zhibo Yang,Tong Lu,Chunhua Shen,Ping Luo

單位 |南京大學;商湯;香港大學;阿里巴巴;阿德萊德大學

論文 |https://arxiv.org/abs/2008.00714

程式碼 |https://github.com/whai362/TDA-ReCTS

備註 |ECCV 2020

問題:字元之間的間距較大或字元均勻分佈在多行多列時,會發生歧義,使得許多視覺上可信的字元分組。

方案:提出一種新型文字發現器,消除歧義文字發現器(AE TextSpotter),可以同時學習視覺和語言特徵,以顯著降低文字檢測的歧義性。

優點:1、語言表徵與視覺表徵在同一框架,作者表示是第一次利用語言模型來改進文字檢測。

2、利用精心設計的語言模組降低了錯誤文字行的檢測置信度,使其在檢測階段容易被修剪。

3、實驗表明,AE TextSpotter比其他SOTA方法有很大的優勢。例如,從IC19-ReCTS資料集中精心挑選了一組極度模糊的樣本進行驗證,所提出方法超過其他方法4%以上。

Character Region Attention For Text Spotting

作者 |Youngmin Baek,Seung Shin,Jeonghun Baek,Sungrae Park,Junyeop Lee,Daehyun Nam,Hwalsuk Lee

單位 |NAVER Corp

論文 |https://arxiv.org/abs/2007.09629

備註 |ECCV 2020

提出一個端到端可訓練的單管道模型,將檢測和識別模組緊密耦合。Character region attention 在共享階段充分利用 character region map 幫助識別器更好地修正和關注文字區域。

同時,設計了識別損失通過檢測階段傳播,增強了檢測器的字元定位能力。此外,在共享階段的整流模組實現了曲面文字的精細定位,避免了手工製作的後處理開發。

實驗結果驗證了CRAFTS在各種資料集上的先進效能。

推薦閱讀:

CVPR 2020 論文大盤點-文字影象篇

CVPR 2019 論文大盤點—文字影象相關篇

另外,歡迎大家關注我愛計算機視覺官方視訊號:

備註:ocr

OCR交流群

文字檢測、識別、編輯等更多最新技術,若已為CV君其他賬號好友請直接私信。

我愛計算機視覺

微訊號:aicvml

QQ群:805388940

微博知乎:@我愛計算機視覺

投稿:[email protected]

網站:www.52cv.net

在看,讓更多人看到