1. 程式人生 > 實用技巧 >EAST: An Efficient and Accurate Scene Text Detector 論文閱讀

EAST: An Efficient and Accurate Scene Text Detector 論文閱讀

EAST: An Efficient and Accurate Scene Text Detector 論文閱讀

Reference

X. Zhou, C. Yao, H. Wen, Y. Wang, S. Zhou, W. He, and J. Liang, “East: an efficient and accurate scene text detector,” in Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, 2017, pp. 5551–5560.

正文

摘要

以往的文字識別方法在處理有挑戰性的場景時不盡人意,因為整體效果由演算法多個階段和模組的共同作用決定。本文的演算法通過單一神經網路直接預測整幅影象中任意方向的單詞或文字行和四邊形形狀,消除了不必要的中間步驟(如候選聚合和詞劃分)。

引言

文字檢測的核心是將文字從背景分離出來的特徵的設計。傳統的,特徵被人工設計成捕獲場景中文字的屬性。在深度學習中,有效的特徵直接從訓練集中學習。

但是現存方法大多包括幾個步驟和模組,這大概都不是最優的並且耗時長,所以準確度和效率都不令人滿意。

本文的方法只有兩步。利用全卷積網路模型(fully convolutional network, FCN)直接生成單詞或文字行級別的預測,減少了冗餘和緩慢的中間步驟。生成的文字預測,既可以是旋轉的矩形也可以是四邊形,被送到非極大抑制(Non-Maximum Suppression)來產生最終結果。和現存的方法比較,根據在標準資料集上的定性定量的實驗,提出的演算法獲得顯著增強的效能,執行更快。

貢獻:
1)提出了一個兩階段的文字檢測方法:一個FCN階段(減少了冗餘和緩慢的中間步驟)和一個NMS合併階段。
2)演算法可以靈活的生成單詞級或文字行級的預測。
3)演算法在準確率和速度上明顯優於現在最好的方法。

相關工作

傳統的方法依賴人工設計特徵。基於Stroke Width Transform(SWT)和Maximally Stable Extremal Regions(MSER)的方法一般通過邊緣檢測或極值區域的提取來尋找字元候選。(Zhang利用文字區域性對稱性的性質,為文字檢測設計了不同特徵。FASText針對筆畫提取適應和修改了FAST關鍵點檢測器)。但傳統方法都輸給了深度神經網路,尤其在低解析度和幾何形變的情況下。

基於深度神經網路的演算法逐漸成為主流。(Huang等人首先發現用MSER找到的候選區然後再用深度卷積網路作為一個強分類器可以減少“偽正例”。Jaderberg等人的方法在滑動視窗掃描圖片,然後用卷積神經網路模型為每個尺度生成稠密熱力圖。後來,Jaderberg等人用一個CNN和一個ACF來捕獲單詞候選區域,然後用回來來修正它們。Tian等人發明了垂直anchors,構建了一個CNN-RNN結合的模型來檢測水平方向的文字行。不同於這些方法,Zhang等人提出利用FCN來生成heatmap,用分量投影來估計方向)這些方法效果出色,但是大多包括很多步驟和模組,可能需要大量的除錯,導致效能次優,並增加耗時。

在本文中,我們設計了一種基於深度FCN的演算法,直接把文字檢測的最終目標作為任務:單詞或文字行級的檢測。拋棄了不必要的中間元件和步驟,允許端對端的訓練和優化。最終的系統,用一個簡單的輕量級的神經網路組成。

方法

模型是一個適用於文字檢測的全卷積神經網路,輸出稠密的按照每個畫素的單詞或文字行預測。這消除了中間步驟,力圖候選區域、文字區域合併和單詞分割。後處理步驟僅包含在預測的幾何形狀上的閾值過濾和NMS操作。

演算法

演算法沿用了DenseBox的通用設計,一張圖送到FCN中,得到畫素級的分數map和幾何形狀的多通道。

預測通道中的一個時分數map,畫素值時在[0,1]之間。剩下的通道代表幾何形狀,從每個畫素級別將單詞框出來。分數代表在同一位置預測的幾何形狀的置信度。

我們對於文字區域實驗了兩種幾何形狀,旋轉矩形(RBOX)和四邊形(QUAD),對每種幾何形狀設計了不同的loss函式。然後在每個預測的區域用閾值過濾,分數高於閾值的幾何位置被認為時有效的,保留下來進行後邊的NMS。NMS後的結果就認為是演算法的最終輸出。

網路設計

幾個需要考慮的因素。文字區域的大小可能變化很大,決定了大的單詞需要來自神經網路的後邊階段的特徵,而預測準確的包圍小的單詞的區域需要在早一些的階段的低級別資訊。所以網路必須使用不同級別的特徵來滿足這些要求。HyperNet是一種合適的辦法,但在大的特徵圖上合併通道會極大增加後面階段的計算量。

為了解決這個問題,我們採用了U-shape來逐漸合併特徵圖,同時使得上取樣的分支較小。我們最終的網路既利用了不同級別的特徵圖還保持了一個較小的計算量。

在這裡插入圖片描述
模型可分為3部分:特徵提取主幹、特徵合併分支和輸出層
主幹可以是在ImageNet資料集上預訓練出的卷積神經網路,從主幹提取的四級特徵圖的,表示為fi,大小分別是輸入影象的1/32、1/16、1/8和1/4。
在這裡插入圖片描述
gi是合併基礎,hi是合併的特徵圖,[.;.]表示沿通道維度拼接。在每個合併階段,來自上一階段的特徵map首先餵給unpooling層來擴大二倍它的大小,然後和現在的特徵map拼接。接下來,1*1的卷積bottleneck將減少通道的數量和減少計算量,後邊跟一個3*3的卷積來融合資訊來產生這個合併階段的最終輸出。最後合併階段後變,執行3*3的卷積產生合併分支的最終特徵圖,餵給輸出層。

我們保持在分支中卷積的通道數較小,這隻增加了主幹計算量的一小部分,使得網路計算更有效。最後的輸出層包括幾個1*1卷積操作,將32通道的特徵圖對映到1個通道的分數map Fs和一個多通道的幾何map Fg。

對於RBOX,幾何形狀用邊界框的座標對應的4個通道(AABB)R和旋轉角度1個通道來表示。4個通道分別表示某一畫素位置到矩形的上、右、下、左邊界的距離。

對於QUAD Q,我們用8個數來表示四邊形的4個角頂點到畫素點位置的座標偏移。對於QUAD Q,我們用8個數來表示四邊形的4個角頂點 在這裡插入圖片描述

到畫素點位置的座標偏移。由於每個距離偏移量包括兩個數 在這裡插入圖片描述

幾何輸出包含8個通道。

標籤生成

我們只考慮區域形狀是四邊形的情況。score map上正區域是原來形狀的略微收縮。對於四邊形 在這裡插入圖片描述
pi={xi,yi}, 是四邊形順時針方向的頂點。對於收縮Q,我們首先對每個頂點pi計算參考長度
在這裡插入圖片描述

D是兩點之間的L2距離。
我們首先壓縮兩個較長邊,然後再壓縮兩個較短邊。對每個 在這裡插入圖片描述
,壓縮是通過分別沿著邊將兩個端點向中間移動0.3ri和0.3r(i mod 4)+1。

壓縮之後,將框內的標籤賦值為1,表示ground truth,其餘的賦值為0。這樣完成了score map的標籤。

之所以需要生成標籤,論文中可以看到,給出的資料集是包含了文字區域的一個標誌框。而框內往往除了文字之外,還有著其他的資訊。進行縮排可以減少這些資訊對最終目標的影響。至於0.3的縮排比可能是超參。

geometry標籤的生成不再贅述。

損失函式

L = Ls + λgLg,Ls表示分數圖的損失,Lg表示幾何形狀的損失。
在這裡插入圖片描述
分數圖的損失使用平衡交叉熵作為損失函式
在這裡插入圖片描述
在這裡插入圖片描述

在這裡插入圖片描述
直接用L1或L2 loss來回歸可能導致loss偏向於更大更長的文字區域。由於我們需要對大的和小的文字區域生成準確的文字幾何形狀預測,所以迴歸loss應該是具有尺度不變性。

RBOX 對於AABB部分,我們採用[46]中的IoU loss,因為它對於不同大小的目標具有不變性。
λ使用了10,可以更好的關注旋轉角度。
QUAD不再贅述

訓練

網路是用ADAN優化器端對端的訓練的。為了加速學習,我們一律從圖片中剪裁512*512大小的樣本來形成24大小的minibatch。ADAM的學習率從0.001開始,每27300個minibatch下降1/10,在0.00001停止。網路訓練直到效能停止提升。

位置感知的NMS

基於相近畫素的幾何圖形趨於高度相關性的假設,我們提議一行一行的合併幾何圖形。當合並同一行的幾何圖形時,我們將迭代合併當前幾何圖形與最後一個合併的。最好的執行時間是O(n)。

值得一提的是,合併四邊形的座標是用給定的兩個四邊形的分數加權平均的。

個人總結

優點:識別準確率高;識別速度快;除錯簡單;可進一步整合文字檢測器。

缺點:探測器可以探測的文字例項最大長度受到網路感知野的限制。這限制了網路預測更長的文字區域,如橫跨影象的文字行。不能檢測複雜形狀的文字,如彎曲文字。