【論文筆記】FOTS: Fast Oriented Text Spotting with a Unified Network

阿新 • • 發佈：2019-01-18

pdf連結：

https://arxiv.org/pdf/1801.01671.pdf

資料集的相關情況：

1.ICDAR2013

ICDAR2013包括四個資料夾，分別是：

訓練影象集：Challenge2_Training_Task12_Images

訓練標註集：Challenge2_Training_Task1_GT

測試影象集：Challenge2_Test_Task12_Images

測試標註集：Challenge2_Test_Task1_GT

標註格式：

xmin, ymin, xmax, ymax, text

舉例：38, 43, 920, 215, "Tiredness"
-------------------------------------------------------------
ICDAR2015

ICDAR2015包含三個資料夾：

訓練影象集：ch4_training_images

訓練標註集：ch4_training_localization_transcription_gt

測試影象集：ch4_test_images

其中，ICDAR2015不包含測試標註集，但提供了測試web介面。因此，這裡只對訓練集進行了轉換。

標註格式：x1,y1,x2,y2,x3,y3,x4,y4,text

其中，x1,y1為左上角座標,x2,y2為右上角座標,x3,y3為右下角座標,x4,y4為左下角座標。‘###’表示text難以辨認。

377,117,463,117,465,130,378,130,Genaxis Theatre

374,155,409,155,409,170,374,170,###

------------------------------------------------------------------------------------------------------------

論文翻譯

shared convolutions結構：Conv1-Res5是從ResNet-50獲得的操作， Deconv 包含一個conv層來減少通道數，和一個雙線性插值上取樣操作。

我們的框架的示意圖如圖2所示，文字檢測分支和識別分支共享卷積特徵。shared convolutions的結構如圖3所示。shared convolutions 產生的特徵圖的解析度是輸入影象的1/4。在獲得檢測分支產生的針對文字區域的候選框之後，本文提出的RoIRotate把相應的共享特徵轉換成固定高度的表示，這個表示都是還保持著原始區域的長寬比。我們採用CNN和LSTM來編碼文字序列資訊，之後再接一個CTC解碼器。我們的文字識別分支如表1所示。

幾個問題，文字檢測分支、文字識別分支和 RoIRotate具體什麼樣？

我們採用全卷積網路作為文字檢測器。由於在場景影象中有很多小的本文框，我們在shared convolutions中，把原始輸入影象的1/32大小的特徵圖放大到1/4。在提取了共享特徵之後，我們應用一個卷積層輸出文字的，稠密的，按畫素的預測。第一個通道計算的是每個畫素是正樣本的概率。與[53]相似，原始文字區域的收縮版本的畫素，都認為是正樣本。對每個正樣本，之後的4個通道預測的是畫素到 bounding box上下左右邊界的距離，最後一個通道預測的是相關的bounding box的方向。對那些正樣本應用二值化和NMS，可以得到最後的檢測結果。（言外之意是，那個卷積層，輸出了6個通道的卷積特徵）
在我們的實驗中，我們觀察到，很多與文字筆畫相似的模式很難分辨，比如籬笆和柵欄等。我們採用線上硬樣本挖掘（OHEM）來更好地區分這些模式，這還解決了類別不平衡的問題。這個方法在ICDAR 2015資料集上對 F-measure有大約2%的提升。
檢測分支loss函式由兩部分組成：文字分類和 bounding box迴歸部分。文字分類部分可以看成，是對下采樣得分圖的，按畫素分類的 loss。只有原始文字區域的壓縮版本視為正區域，....其他區域視為“not care”，對分類的loss沒有貢獻。定義得分圖中，由OHEM選中的正元素的集合為Omega，。。。公式1如下。
這裡|·|表示集合中元素的個數，H(p_x,p_x*)表示p_x,p_x*的交叉熵，p_x表示得分圖的預測值，p_x*表示二值標籤，用來說明是否是文字。
至於迴歸loss，我們採用IoU loss和旋轉角 loss，因為他們對於目標形狀，大小和方向的變化都是魯棒的。
這裡，IoU(R_x,R_x*)指的是預測的bounding box R_x，和GT R_x*的IoU loss。第二項是旋轉角loss，這裡theta_x和theta_x*表示預測的方向和GT 方向。實驗中，我們設定超參數lambda_theta為10。
因此...公式3。
這裡一個超引數lambda_reg用來平衡兩個loss，我們實驗中設定為1。
RoIRotate在方向特徵區域應用變形，來獲得與座標軸平行的特徵圖，如圖4所示。在這個工作中，我們固定輸出高度，保持長寬比不變來處理文字長度的變化。RoIRotate提供一個用於提取感興趣區域的特徵的更一般的操作。我們也把RoIRotate和RRPN提出的RPoI pooling做了對比。RRoI通過max-pooling把旋轉區域變形為一個固定大小的區域。而我們利用雙線性插值來計算輸出的值。RoIRotate操作避免了RoI未對準提取的特徵，進一步使得輸出特徵是變化的，這對於文字識別來說更合適。
RoIRotate過程可以分為兩步，第一步，我們通過文字proposal的預測或者GT座標，來計算仿射變換引數。然後，分別對每一個區域，我們把仿射變換用於共享特徵圖。由此，我們可以獲得，文字區域的典型的水平特徵圖。第一步的公式如下：
...
這裡M是仿射變換矩陣，h_t,w_t表示經過仿射變換以後的高度（實驗中我們取8）和寬度，(x,y)表示共享特徵圖中的一個點的座標，(t,b,l,r)表示該點到proposal上下左右的距離，theta表示方向。(t,b,l,r)和theta可以由GT或者檢測分支給出。
在得到變形引數的條件下，利用仿射變形，很容易生成最終的RoI特徵：
...

（補充，x_i`t,y_i`t表示輸出的特徵圖上的座標；x_i`s,y_i`s表示輸出的特徵圖上座標對應在輸入特徵圖上的取樣點的座標。知道了輸出特徵圖在輸入特徵圖上的取樣點座標之後，接下來就是要根據取樣點的值確定輸出目標點的值了。這裡一般會用到取樣核，以取樣點為中心的核範圍內的點對輸出目標點的值都有貢獻。）對於任意一個i屬於1到h_t（輸出特徵圖的高），任意一個j屬於1到w_t（輸出特徵圖的寬），任意一個c屬於1到C，都有
...
這裡V_ij`c是通道c中，位置(i,j)的輸出特徵圖的值；U_nm`c是通道c中，位置(n,m)的輸入特徵圖的值； h_s,w_s表示輸入特徵圖的高度和寬度，Phi_x,Phi_y是一個普通的取樣核k()的引數，這些引數定義了插值方法，我們的工作採用的是雙線性插值。由於文字proposal的寬度可能變化，實際上，我們把特徵圖補0到最大寬度，而在識別 loss函式中忽略補0的部分。（補充：x_ij`s 表示取樣點座標）

空間變形網路[21]用相似的方式利用仿射變換，但通過不同的方法獲得變形引數，該方法主要用於影象領域，也就是說，使影象變形。RoIRotate把共享卷積產生的特徵圖作為輸入，產生所有文字proposal的特徵圖，這些特徵圖具有固定的高度和不變的長寬比。

文字識別分支旨在，利用共享卷積層提取的區域特徵，和RoIRotate變形後的特徵，預測文字標籤。考慮到文字區域中標籤長度的不同，輸入到LSTM中的特徵僅僅縮小了兩次（變成原來的1/4）。否則小的文字區域中有辨識度的特徵，尤其是那些很小的字母就會被漏掉。我們的文字識別分支包含一個類似VGG的網路。

我們在3個數據集上測試了我們的方法：ICDAR 2015，ICDAR 2017 MLT和ICDAR 2013，我們的方法都超過了目前的最好結果。我們使用的所有訓練資料都是公開的。
1：ICDAR 2015資料集，通常用於變方向的場景文字檢測和識別。該資料集包括1000張訓練影象和500張測試影象，場景中的文字包含任意方向。對於文字識別任務，該資料集在測試階段提供3個特定的單詞列表作為參考詞彙，分別是“強”，“弱”和“通用”。 “強”列表為每個影象提供100個單詞，包括影象中出現的所有單詞。 “弱”列表包括整個測試集中出現的所有單詞。 “通用”列表是一個包含9萬個單詞的列表。在訓練中，我們首先使用來自ICDAR 2017 MLT訓練集和驗證集的9000張影象訓練模型，然後使用ICDAR 2015中的1000張訓練影象和ICDAR 2013中的229張訓練影象來fine-tune我們的模型。
2：ICDAR 2017 MLT是一個大型的多語言文字資料集，包含7200張訓練影象，1800張驗證影象和9000張測試影象。該資料集由來自9種語言的場景影象組成，並且該資料集中的文字區域具有任意方向，因此更加多樣化和具有挑戰性。此資料集沒有文字識別任務，因此我們只報告我們的文字檢測結果。我們同時使用訓練集和驗證集來訓練我們的模型。
3：ICDAR 2013包含229張訓練影象和233張測試影象，與ICDAR 2015類似，它還為文字識別任務提供了“強”，“弱”和“通用”列表。與上述資料集不同的是，ICDAR 2013僅包含水平文字。儘管我們的方法是針對各種方向的文字設計的，但該資料集的結果表明所提出的方法也適用於橫向文字。由於訓練影象太少，我們首先使用來自ICDAR 2017 MLT訓練集和驗證集的共9000幅影象來訓練預先訓練的模型，然後使用229幅ICDAR 2013訓練集的影象進行fine-tune。
與之前將文字檢測和識別分為兩個不相關任務的工作不同，我們的方法能同時完成這兩個任務，並且，這兩個任務是互相促進的。為了驗證這一點，我們構建了一個兩階段系統，其中文字檢測和文字識別模型分別進行了訓練。文字檢測網路是通過，去除我們提出方法的識別分支，來構建的；同樣，文字識別網路是通過，去除我們提出方法的檢測分支，來構建的。對於文字識別網路，類似於之前的方法，我們從源影象中剪下文字行區域作為訓練資料。

正如表5所示，得益於我們的卷積共享策略，FOTS用比一個簡單的文字檢測網路多一點的計算量和記憶體開銷，就可以檢測和識別文字。...所以，FOTS在保持實時的前提下可以得到目前最好的結果。
綜上所述，作者工作的貢獻主要有以下3點：
1. 提出了FOTS，一個端到端的，可訓練的，多方向的場景文字識別框架。
2. 提出一個新穎的RoIRotate操作，使得檢測和識別統一到一個端到端的系統中。
3. 通過共享卷積特徵，文字識別步驟計算開銷基本沒有，這也使得作者的系統分可以在實時的速度下執行。

參考:

https://arxiv.org/pdf/1704.03155v2.pdf

https://blog.csdn.net/sparkexpert/article/details/77987654

http://papers.nips.cc/paper/5854-spatial-transformer-networks.pdf

https://blog.csdn.net/yaoqi_isee/article/details/72784881

【論文筆記】FOTS: Fast Oriented Text Spotting with a Unified Network

【論文筆記】FOTS: Fast Oriented Text Spotting with a Unified Network

【論文筆記】視訊分類系列 Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video (OFF)

【論文筆記】Deep Structured Output Learning for Unconstrained Text Recognition

【論文筆記】Text-Recognition_簡略版_201606

【論文筆記】T Test

Reading Wikipedia to Answer Open-Domain Questions【論文筆記】

Semantic Parsing via Staged Query Graph Generation: Question Answering with Knowledge Base【論文筆記】

Question Answering over Freebase with Multi-Column Convolutional Neural Networks【論文筆記】

Context-Aware Basic Level Concepts Detection in Folksonomies【論文筆記】

Question Answering with Subgraph Embeddings【論文筆記】

Information Extraction over Structured Data: Question Answering with Freebase【論文筆記】

Semantic Parsing on Freebase from Question-Answer Pairs【論文筆記】

vggface2人臉識別資料集【論文筆記】VGGFace2——一個能夠用於識別不同姿態和年齡人臉的資料集

【論文筆記】使用多流密集網路的密度感知單影象去雨

【論文筆記】用形狀做擋風玻璃上的雨滴檢測《Detection Of Raindrop With Various Shapes On A Windshield》

【論文筆記】光流在視訊行為識別中的作用

【論文筆記】Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification

【論文筆記】Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

【論文筆記】視訊物體檢測(VID)系列 NoScope:1000x的視訊檢索加速演算法

【論文筆記】In Defense of the Triplet Loss for Person Re-Identification

【論文筆記】FOTS: Fast Oriented Text Spotting with a Unified Network

相關推薦