1. 程式人生 > >【論文筆記】FOTS: Fast Oriented Text Spotting with a Unified Network

【論文筆記】FOTS: Fast Oriented Text Spotting with a Unified Network

pdf連結:

https://arxiv.org/pdf/1801.01671.pdf

資料集的相關情況:



1.ICDAR2013


ICDAR2013包括四個資料夾,分別是:


訓練影象集:Challenge2_Training_Task12_Images


訓練標註集:Challenge2_Training_Task1_GT


測試影象集:Challenge2_Test_Task12_Images


測試標註集:Challenge2_Test_Task1_GT


標註格式:


xmin, ymin, xmax, ymax, text


舉例:38, 43, 920, 215, "Tiredness"
-------------------------------------------------------------
ICDAR2015


ICDAR2015包含三個資料夾:


訓練影象集:ch4_training_images


訓練標註集:ch4_training_localization_transcription_gt


測試影象集:ch4_test_images


其中,ICDAR2015不包含測試標註集,但提供了測試web介面。因此,這裡只對訓練集進行了轉換。


標註格式:x1,y1,x2,y2,x3,y3,x4,y4,text


其中,x1,y1為左上角座標,x2,y2為右上角座標,x3,y3為右下角座標,x4,y4為左下角座標。‘###’表示text難以辨認。


377,117,463,117,465,130,378,130,Genaxis Theatre


374,155,409,155,409,170,374,170,###

------------------------------------------------------------------------------------------------------------

論文翻譯


shared convolutions結構:Conv1-Res5是從ResNet-50獲得的操作, Deconv 包含一個conv層來減少通道數,和一個雙線性插值上取樣操 作。


我們的框架的示意圖如圖2所示,文字檢測分支和識別分支共享卷積特徵。shared convolutions的結構如圖3所示。shared convolutions 產生的特徵圖的解析度是輸入影象的1/4。在獲得檢測分支產生的針對文字區域的候選框之後,本文提出的RoIRotate把相應的共享特徵轉換 成固定高度的表示,這個表示都是還保持著原始區域的長寬比。我們採用CNN和LSTM來編碼文字序列資訊,之後再接一個CTC解碼器。我們的文字識別分支如表1所示。


幾個問題,文字檢測分支、文字識別分支和 RoIRotate具體什麼樣?


我們採用全卷積網路作為文字檢測器。由於在場景影象中有很多小的本文框,我們在shared convolutions中,把原始輸入影象的1/32大 小的特徵圖放大到1/4。在提取了共享特徵之後,我們應用一個卷積層輸出文字的,稠密的,按畫素的預測。第一個通道計算的是每個畫素是正樣本的概率。與[53]相似,原始文字 區域的收縮版本的畫素,都認為是正樣本。對每個正樣本,之後的4個通道預測的是畫素到 bounding box上下左右邊界的距離,最後一 個通道預測的是相關的bounding box的方向 。對那些正樣本應用二值化和NMS,可以得到最後的檢測結果。(言外之意是,那個卷積層,輸出了6個通道的卷積特徵)
在我們的實驗中,我們觀察到,很多與文字筆畫相似的模式很難分辨,比如籬笆和柵欄等。我們採用線上硬樣本挖掘(OHEM)來更好地區分這些模式,這還解決了類別不平衡的問題。 這個方法在ICDAR 2015資料集上對 F-measure有大約2%的提升。
檢測分支loss函式由兩部分組成:文字分類和 bounding box迴歸部分。文字分類部分可以 看成,是對下采樣得分圖的,按畫素分類的  loss。只有原始文字區域的壓縮版本視為正區域,....其他區域視為“not care”,對分類 的loss沒有貢獻。定義得分圖中,由OHEM選中的正元素的集合為Omega,。。。公式1如下。
這裡|·|表示集合中元素的個數,H(p_x,p_x*)表示p_x,p_x*的交叉熵,p_x表示得分圖的預測值,p_x*表示二值標籤,用來說明是否是文字。
至於迴歸loss,我們採用IoU loss和旋轉角 loss,因為他們對於目標形狀,大小和方向的變化都是魯棒的。
這裡,IoU(R_x,R_x*)指的是預測的bounding box R_x,和GT R_x*的IoU loss。第二項是 旋轉角loss,這裡theta_x和theta_x*表示預測的方向和GT 方向。實驗中,我們設定超參 數lambda_theta為10。
因此...公式3。
這裡一個超引數lambda_reg用來平衡兩個loss,我們實驗中設定為1。
RoIRotate在方向特徵區域應用變形,來獲得與座標軸平行的特徵圖,如圖4所示。在這個工作中,我們固定輸出高度,保持長寬比不變來處理文字長度的變化。RoIRotate提供一個用於提取感興趣區域的特徵的更一般的操作。我們也把RoIRotate和RRPN提出的RPoI pooling做了對比。RRoI通過max-pooling把旋轉區域變形為一個固定大小的區域。而我們利用雙線性插值來計算輸出的值。RoIRotate操作避免了RoI未對準提取的特徵,進一步使得輸出特徵是變化的,這對於文字識別來說更合適。
RoIRotate過程可以分為兩步,第一步,我們通過文字proposal的預測或者GT座標,來計算仿射變換引數。然後,分別對每一個區域,我們把仿射變換用於共享特徵圖。由此,我們可以獲得,文字區域的典型的水平特徵圖。第一步的公式如下:
...
這裡M是仿射變換矩陣,h_t,w_t表示經過仿射變換以後的高度(實驗中我們取8)和寬度,(x,y)表示共享特徵圖中的一個點的座標,(t,b,l,r)表示該點到proposal上下左右的距 離,theta表示方向。(t,b,l,r)和theta可以 由GT或者檢測分支給出。
在得到變形引數的條件下,利用仿射變形,很容易生成最終的RoI特徵:
...


(補充,x_i`t,y_i`t表示輸出的特徵圖上的座標;x_i`s,y_i`s表示輸出的特徵圖上座標對應在輸入特徵圖上的取樣點的座標。知道了輸出特徵圖在輸入特徵圖上的取樣點座標之後,接下來就是要根據取樣點的值確定輸出目標點的值了。這裡一般會用到取樣核,以取樣點為中心的核範圍內的點對輸出目標點的值都有貢獻。)對於任意一個i屬於1到h_t(輸出特徵圖的高),任意一個j屬於1到w_t(輸出特徵圖的寬),任意一個c屬於1到C,都有
...
這裡V_ij`c是通道c中,位置(i,j)的輸出特徵圖的值 ;U_nm`c是通道c中,位置(n,m)的輸入特徵圖的值;  h_s,w_s表示輸入特徵圖的高度和寬度,Phi_x,Phi_y是一個普通的取樣核k()的引數,這些引數定義了插值方法,我們的工作採用的是雙線性插值。由於文字proposal的寬度可能變化,實際上,我們把特徵圖補0到最大寬度,而在識別 loss函式中忽略補0的部分。(補充:x_ij`s 表示取樣點座標)

空間變形網路[21]用相似的方式利用仿射變 換,但通過不同的方法獲得變形引數,該方法主要用於影象領域,也就是說,使影象變形。RoIRotate把共享卷積產生的特徵圖作為輸入,產生所有文字proposal的特徵圖,這些特徵圖具有固定的高度和不變的長寬比。

文字識別分支旨在,利用共享卷積層提取的區域特徵,和RoIRotate變形後的特徵,預測文字標籤。考慮到文字區域中標籤長度的不同,輸入到LSTM中的特徵僅僅縮小了兩次(變成原來的1/4)。否則小的文字區域中有辨識度的特徵,尤其是那些很小的字母就會被漏掉。我們的文字識別分支包含一個類似VGG的網路。

我們在3個數據集上測試了我們的方法:ICDAR 2015,ICDAR 2017 MLT和ICDAR 2013,我們的方法都超過了目前的最好結果。我們使用的所有訓練資料都是公開的。
1:ICDAR 2015資料集,通常用於變方向的場景文字檢測和識別。 該資料集包括1000張訓練影象和500張測試影象,場景中的文字包含任意方向。 對於文字識別任務,該資料集在測試階段提供3個特定的單詞列表作為參考詞彙,分別是“強”,“弱”和“通用”。 “強”列表為每個影象提供100個單詞,包括影象中出現的所有單詞。 “弱”列表包括整個測試集中出現的所有單詞。 “通用”列表是一個包含9萬個單詞的列表。 在訓練中,我們首先使用來自ICDAR 2017 MLT訓練集和驗證集的9000張影象訓練模型,然後使用ICDAR 2015中的1000張訓練影象和ICDAR 2013中的229張訓練影象來fine-tune我們的模型。
2:ICDAR 2017 MLT是一個大型的多語言文字資料集,包含7200張訓練影象,1800張驗證影象和9000張測試影象。該資料集由來自9種語言的場景影象組成,並且該資料集中的文字區域具有任意方向,因此更加多樣化和具有挑戰性。此資料集沒有文字識別任務,因此我們只報告我們的文字檢測結果。我們同時使用訓練集和驗證集來訓練我們的模型。
3:ICDAR 2013包含229張訓練影象和233張測試影象,與ICDAR 2015類似,它還為文字識別任務提供了“強”,“弱”和“通用”列表。與上述資料集不同的是,ICDAR 2013僅包含水平文字。儘管我們的方法是針對各種方向的文字設計的,但該資料集的結果表明所提出的方法也適用於橫向文字。由於訓練影象太少,我們首先使用來自ICDAR 2017 MLT訓練集和驗證集的共9000幅影象來訓練預先訓練的模型,然後使用229幅ICDAR 2013訓練集的影象進行fine-tune。
與之前將文字檢測和識別分為兩個不相關任務的工作不同,我們的方法能同時完成這兩個任務,並且,這兩個任務是互相促進的。為了驗證這一點,我們構建了一個兩階段系統,其中文字檢測和文字識別模型分別進行了訓練。文字檢測網路是通過,去除我們提出方法的識別分支,來構建的;同樣,文字識別網路是通過,去除我們提出方法的檢測分支,來構建的。對於文字識別網路,類似於之前的方法,我們從源影象中剪下文字行區域作為訓練資料。

正如表5所示,得益於我們的卷積共享策略,FOTS用比一個簡單的文字檢測網路多一點的計算量和記憶體開銷,就可以檢測和識別文字。...所以,FOTS在保持實時的前提下可以得到目前最好的結果。
綜上所述,作者工作的貢獻主要有以下3點:
1. 提出了FOTS,一個端到端的,可訓練的,多方向的場景文字識別框架。
2. 提出一個新穎的RoIRotate操作,使得檢測和識別統一到一個端到端的系統中。
3. 通過共享卷積特徵,文字識別步驟計算開銷基本沒有,這也使得作者的系統分可以在實時的速度下執行。

參考:

https://arxiv.org/pdf/1704.03155v2.pdf

https://blog.csdn.net/sparkexpert/article/details/77987654

http://papers.nips.cc/paper/5854-spatial-transformer-networks.pdf

https://blog.csdn.net/yaoqi_isee/article/details/72784881

相關推薦

論文筆記FOTS: Fast Oriented Text Spotting with a Unified Network

pdf連結:https://arxiv.org/pdf/1801.01671.pdf資料集的相關情況:1.ICDAR2013ICDAR2013包括四個資料夾,分別是:訓練影象集:Challenge2_Training_Task12_Images訓練標註集:Challenge2

論文筆記視訊分類系列 Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video (OFF)

0. 簡述 運動資訊對於視訊中動作的識別有著重要的作用。其中最常用的一種運動資訊,是光流。之前的方法計算光流是offline的,比較耗時,本文提出了一種新的簡潔的運動表示,叫做Optical Flow guided Feature (OFF)。OFF通

論文筆記Deep Structured Output Learning for Unconstrained Text Recognition

寫在前面: 我看的paper大多為Computer Vision、Deep Learning相關的paper,現在基本也處於入門階段,一些理解可能不太正確。說到底,小女子才疏學淺,如果有錯誤及理解不透

論文筆記Text-Recognition_簡略版_201606

【1】Shi B, Wang X, Lv P, et al. Robust Scene Text Recognition with Automatic Rectification[J]. arXiv p

論文筆記T Test

nor thum pan n-1 統計學 for nes 其它 align 用來算兩組數的差別大小 只要是一種叫做p-value的 就是說假如你測定一個實驗的p-value是5%也就是說你有95%的信心確定這個實驗它是正確的在正規的實驗裏 只有當p-value小於5%的時候

Reading Wikipedia to Answer Open-Domain Questions論文筆記

一、摘要   這篇文章主要是介紹使用維基百科作為唯一的知識庫來解決開放域問答。大規模機器閱讀任務的主要挑戰是文件檢索(查詢相關文章)和機器閱讀理解(從文章中確定答案片段)。作者的方法將基於bigram hashing 和TF-IDF匹配的搜尋元件與經過訓練以檢測維基百科段落中的答案的多層

Semantic Parsing via Staged Query Graph Generation: Question Answering with Knowledge Base論文筆記

一、摘要   我們對知識庫問答提出一個新穎的語義解析框架。我們定義了一個類似於知識庫子圖的查詢圖,可以直接對映為邏輯形式。語義解析被簡化為查詢圖生成,被表述為分階段搜尋問題。與傳統方法不同,我們的方法在早期就利用知識庫來修剪搜尋空間,從而簡化語義匹配問題。通過應用實體鏈指系統和深度卷

Question Answering over Freebase with Multi-Column Convolutional Neural Networks論文筆記

一、概要   通過知識庫回答自然語言問題是一個重要的具有挑戰性的任務。大多數目前的系統依賴於手工特徵和規則。本篇論文,我們介紹了MCCNNs,從三個不同層面(答案路徑,答案型別,答案上下文)來理解問題。同時,在知識庫中我們共同學習實體和關係的低維詞向量。問答對用於訓練模型以對候選答案

Context-Aware Basic Level Concepts Detection in Folksonomies論文筆記

一、概要 這篇論文討論了在 folksonomies中探索隱含語義的問題。在 folksonomies中,使用者建立和管理標籤來標註web資源。使用者建立的標籤的集合是潛在的語義資源。做了大量研究來抽取概念,甚至概念層次 (本體),這是知識表示的重要組成部分。沒有用於發現人類可接受和令人滿意

Question Answering with Subgraph Embeddings論文筆記

一、摘要 這篇論文提出一個系統,在大範圍主題的知識庫中,學習使用較少的手工特徵來回答問題。我們的模型學習單詞和知識庫組成的低維詞向量。這些表示用於根據候選答案對自然語言問題打分。使用成對的問題和對應答案的結構化表示,和成對的問題釋義來訓練系統,在最近的文獻基準中產生有競爭力的結果。 &n

Information Extraction over Structured Data: Question Answering with Freebase論文筆記

          Information Extraction over Structured Data:Question Answering with Freebase   一、摘要

Semantic Parsing on Freebase from Question-Answer Pairs論文筆記

參考:https://zhuanlan.zhihu.com/p/25759682 原文:https://cs.stanford.edu/~pliang/papers/freebase-emnlp2013.pdf 一 、摘要 作者訓練了一個可擴充套件到Freebase的語義解析器,由於

vggface2人臉識別資料集 論文筆記VGGFace2——一個能夠用於識別不同姿態和年齡人臉的資料集

原 【論文筆記】VGGFace2——一個能夠用於識別不同姿態和年齡人臉的資料集 2018年01月10日 14:53:31 有來有去-CV 閱讀數:6701

論文筆記使用多流密集網路的密度感知單影象去雨

使用多流密集網路的密度感知單影象去雨 《Density-aware Single Image De-reaining using a Multi-stream Dense Network》 0 概要 這裡提出一種密度感知多路稠密連線神經網路演算法,DID-MDN,來雨量

論文筆記用形狀做擋風玻璃上的雨滴檢測《Detection Of Raindrop With Various Shapes On A Windshield》

《Detection of Raindrop with Various Shapes on a Windshield》 1 介紹 2 雨滴檢測方法 在白天和夜晚使用不同的演算法。通過整幅影象的強度水平判斷是白天還是夜晚。 2.1 白天的雨滴檢測方法 這個方法假設

論文筆記光流在視訊行為識別中的作用

0. 引言 在做視訊行為識別時,特別是基於two-stream框架時,常常會引入光流圖作為雙流網路其中一支的輸入。這是很常用,且在各資料集上已被證明有效的做法。但是,關於光流在行為識別中到底起到了什麼作用其實並沒有明確的研究。通常我們認為光流代表了視訊的m

論文筆記Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification

摘要 Person re-identification (ReID) is an important task in computer vision. Recently, deep learning with a metric learning loss has becom

論文筆記Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

寫在前面:      我看的paper大多為Computer Vision、Deep Learning相關的paper,現在基本也處於入門階段,一些理解可能不太正確。說到底,小女子才疏學淺,如果有錯

論文筆記視訊物體檢測(VID)系列 NoScope:1000x的視訊檢索加速演算法

計算機視覺的進展,特別是近期深度神經網路的進展,使得在不斷增長的視訊資料中進行檢索成為可能。但是,基於神經網路去做大規模視訊檢索,直接的問題就是計算量激增。比如現在最快的物體檢測器能達到1~2.5x real time的效率(30~80fps),前提是買一個

論文筆記In Defense of the Triplet Loss for Person Re-Identification

1、前言 Triplet loss是非常常用的一種deep metric learning方法,在影象檢索領域有非常廣泛的應用,比如人臉識別、行人重識別、商品檢索等。傳統的triplet loss訓練需要一個三元組,包括三張圖片:achor,positive,