帶你讀論文丨基於視覺匹配的自適應文字識別
摘要:ECCV2020 通過視覺匹配的方法來做文字識別,解決文件識別中的文字識別多樣性和泛化性問題
本文分享自華為雲社群《論文解讀二十三:基於視覺匹配的自適應文字識別》,作者: wooheng。
引言
本文工作目標是文字識別的泛化和靈活性,之前的文字識別方法[1,2,3,4]在很多的單一場景下都取得了很好的效果,但是一旦推廣到另一個包含新字型和新語言的場景,要麼使用大量資料重新訓練,或者針對每個新樣本進行微調。
本文基於一個關鍵點:文字是有限數量離散實體的重複序列,重複的實體是文字字串中的字元和字形,即文字行影象中字元/符號的視覺表示。假設可以訪問字形示例(即字元的裁剪影象),並要求視覺編碼器在給定的文字行影象中定位這些重複的字形。視覺編碼器的輸出是一個相似度圖,它將文字行中每個空間位置與字母表中每個字形的視覺相似度編碼,如圖1所示。解碼器攝取該相似度圖以推斷最可能的字串。圖2總結了所提出的方法。
圖1用於文字識別的視覺匹配。當前的文字識別模型從預定義(固定)字母表中學習特定於字元形狀(字形)的判別特徵。我們訓練我們的模型來建立給定字元字形(頂部)和要識別的文字行影象(左側)之間的視覺相似性。這使得模型高度適應看不見的字形、新字母表(不同的語言),並且無需進一步訓練即可擴充套件到新的字元類,例如英語→希臘語。更亮的顏色對應於更高的視覺相似性。
圖2自適應視覺匹配的架構。本文將文字識別問題轉化為給定文字線影象中字形樣本的視覺匹配問題。左圖:體系結構圖。視覺編碼器 Φ 嵌入字形 g 和文字行 x ,並生成相似性對映S,該對映S對每個字形的相似性進行評分。然後,解決(潛在)不完全視覺匹配中的模糊性,以產生增強的相似性對映S*。最後,使用M中包含的真實字形寬度,將相似性分數聚合到輸出類概率P。右圖:說明字形寬度如何編碼到模型中。字形寬度帶(頂部)的高度與其相應字形示例的寬度相同,其標量值是以畫素為單位的字形寬度。字形寬度對映(底部)是一個二進位制矩陣,字母表A中的每個字元都有一列;這些列通過將相應的行設定為非零值(=1)來指示字形線影象中字形的範圍。
2.模型結構
本文的模型通過視覺匹配定位給定的文字行影象中的字形樣本來識別給定的文字行影象。它將文字行影象和包含一組樣本的字母影象作為輸入,並預測N個類上的概率序列作為輸出,其中N等於字母影象中給出的樣本數。對於推理,字形線影象是通過並排連線參考字型的單個字元字形來組裝的,然後可以讀取該字型中的文字線。
該模型有兩個主要部分:(1)視覺相似性編碼器(第2.1節),它輸出編碼文字行影象中每個字形的相似性的相似性圖,和(2)一個與字母無關的解碼器(第2.2節),它接收這個相似性對映以推斷最可能的字串。在第2.3節中,我們詳細介紹了訓練目標。圖2給出了模型的簡明示意圖。
2.1 視覺相似性編碼器
輸入:所有目標字母的字形;要識別的文字行影象
目的:得到目標字母的字形在要識別的文字行影象中的位置
使用視覺編碼器 Φ 對字形 g 和文字行 x 進行編碼,並且生成相似圖 S ,表示每一個字形和文字行的每一個位置的相似度。使用餘弦距離計算相似度。
編碼器使用有兩個殘差塊的 U-Net 實現,視覺相似度圖由文字行和字形行影象沿編碼特徵寬度的所有位置之間的餘弦距離得到。
2.2 字母無關編碼器
字母無關解碼器將相似性對映離散為沿文字行影象寬度的所有空間位置的樣本中每個字形的概率。
一個簡單的實現將預測在相似性對映中每個字形的範圍上聚合的相似性得分的argmax或總和。然而,這種策略並不能克服相似性中的模糊性,也不能產生平滑/一致的字元預測。因此分兩個步驟進行:首先,相似性消歧義通過考慮線影象中的字形寬度和位置,解決字母表中字形的歧義,產生增強的相似性對映(S*),其次,類聚合器通過聚合S*中每個字形的空間範圍內的分數來計算字形概率。
消除相似性歧義
理想的相似性對映具有高相似性的方形區域。這是因為字形和文字行影象中字元的寬度將相同。因此將字形寬度與區域性的x、y座標一起使用小型MLP編碼到相似度圖中。x、y座標的兩個通道(標準化為[0,1])和字形寬度堆疊起來輸入到MLP中。為了消歧義,本文使用一個自我注意模組並輸出與S相同大小的增強相似性的對映S*。
類聚合器
將相似圖S*對映到每個字形對應的示例字形的概率S∗→P,通過乘矩陣M實現 P = MS∗,其中 M = [ m1, m2 , . . . , m∣A∣]T,mi ∈ {0, 1}=[0,...,0,1,...,1,0,...,0],其中,非零值對應於字形影象中第i個字形的寬度。
推理階段
在推理階段使用貪婪演算法解碼。
3.訓練損失函式
使用CTC損失監督字形示例P,以將預測與輸出標籤對齊。還在每個位置使用輔助交叉熵損失(L sim)來監督視覺編碼器S的相似性對映輸出。使用真實字元邊界框來確定每個字元的空間跨度。總體訓練由以下兩部分損失組成。
4.實驗結果
本文與最先進的文字識別模型進行了比較,然後推廣到新的字型和語言。
圖3VS-1、VS-2:泛化到具有/不具有已知測試字形和增加訓練字型數量的新字型。FontSynth測試集上的錯誤率(以%為單位;↓為更好)。Ours-cross代表交叉字型匹配,其中測試字形未知,訓練字型被用作字形樣本,當樣本字型從訓練集中隨機選擇時顯示mean和standard-dev,selected顯示基於置信度自動選擇的最佳匹配示例的結果。R、B、L和I對應於FontSynth訓練集中的Regular,Bold,Light,Italic;OS代表Omniglot-Seq資料集。
圖4VS-3:從合成數據到真實資料的推廣。Google1000英文文件中僅在合成數據上訓練模型的平均錯誤率(%;↓更好)。LM代表6-gram語言模型。
5.結論
本文提出一種文字識別方法,它可以推廣到新穎的字型視覺風格(字型、顏色、背景等),並且不與特定的字母大小/語言掛鉤。它通過將經典文字識別重新塑造為視覺匹配識別來實現這一目標,本文已經證明了匹配可以利用隨機形狀/字形進行訓練。本文的模型可能是第一個one-shot序列識別的模型,與傳統的文字識別方法相比擁有卓越的泛化能力,而不需要昂貴的適配/微調。雖然該方法已經被證明用於文字識別,但它適用於其他序列識別問題,如語音和動作識別。
參考文獻
[1] Jeonghun Baek, Geewook Kim, Junyeop Lee, Sungrae Park, Dongyoon Han, Sangdoo Yun, Seong Joon Oh, and Hwalsuk Lee. What is wrong with scene text recognition model comparisons? dataset and model analysis. In Proc. ICCV, 2019.
[2] Zhanzhan Cheng, Yangliu Xu, Fan Bai, Yi Niu, Shiliang Pu, and Shuigeng Zhou. Aon: Towards arbitrarily-oriented text recognition. In Proc. CVPR, 2018.
[3] Chen-Yu Lee and Simon Osindero. Recursive recurrent nets with attention modeling for OCR in the wild. In Proc. CVPR, 2016.
[4] Baoguang Shi, Mingkun Yang, Xinggang Wang, Pengyuan Lyu, Cong Yao, and Xiang Bai. Aster: An attentional scene text recognizer with flexible rectification. PAMI, 2018.