自然影象中的logo識別和定位:Logo localization andrecognition in natural images using homographic class graphs
這篇文章是2015年發表的文章:Logo localization andrecognition in natural images using homographic class graphs。檢測自然場景中logo效果很好。
重要的部分或者改進用紅色標註。歡迎大家討論~
背景
檢測logo有很多挑戰,比如視角變化、彎曲、形狀和顏色的變化、遮擋、背景變化等。文章提出了一種在自然影象中定位和分類logo的方法。為了解決視角變化,同一類logo例項的SIFT關鍵點之間進行單對映匹配。為了解決顏色變化,構建了一個logo互連的加權圖,以提取潛在的某個類的多個類例項。通過將各個訓練影象對映到中心影象上構建一個類模型。對於彩色反轉logo,通過反轉第一個類模型的特徵方向獲得第兩個類模型,這將大大提高準確率。
logo是包含了顏色、形狀、特徵等資訊的圖形實體。它的定位和識別是目標檢測的一個子問題,在現實生活中有很多用處:
(1)在汽車行業,自動的logo識別可以用於營銷研究,允許生產者通過分析其運輸模式更好地瞭解客戶;在法醫學中還補充了車牌識別。
(2)正式檔案中logo的識別可以提高分類和處理效率。
(3)在體育領域,logo顯示的持續時間和位置很重要,例如贊助商需要保證其logo一定程度的可見度。
(4)一般廣告業採用logo檢測評估營銷活動的影響。
(5)企業收集類似現有logo的證據,發現不正當或未授權使用其logo的侵權等。
方法
1. 特徵提取
SIFT特徵是很好的描述影象特徵的描述子。它對尺度、方向等具有不變性。在自然影象中,logo通常都十分小。若是直接提取SIFT特徵,可能提取不到或者只能提取到幾個特徵點,這對檢測是十分不利的。因此在訓練影象中,首先剪切出只含有logo的部分作為“訓練logo塊”,然後再提取SIFT特徵。
為了更好地描述logo做了兩方面的修改。首先,將SIFT中DoG的邊緣閾值從10提高至100。這能夠保證在不引入無用的特徵點的同時,提取到更多的特徵點來描述logo。其次,也是為了提高獲得的特徵點個數。資料集中測試影象中的logo過於微小,受[2]啟發,在測試時,將任何一維小於200畫素的測試影象擴大一倍
2. 影象匹配
影象匹配的目的是通過尋找到兩張影象的合適的對映關係,揭示影象對之間的空間對應關係。這裡的對映關係指的是單應性,即評估將一張影象對映到另一張影象平面的單應性矩陣。(影象拼接)
2.1 單應性矩陣
單映性變換是相同場景的兩個影象之間的一種連線,記為H。它可以將第一張影象中平面上的點(a,b)對映到第二張圖上的(x,y)點:
,
給H乘以一個係數z,就變成把原來的(a,b,1)對映成(zx,zy,z)。該點實際上和(x,y,1)是同一個點,可以令z=1/h33,則h33=1。所以H中只有8個自由元素,至少需要4對影象對即可解出一個矩陣H。
2.2 RANSAC
迭代地隨機選擇4對特徵對應關係,用直接線性變換(DLT)確定單應性矩陣H[3]。迭代次數越多,尋找到的匹配關係越準確。如果一次正確匹配的概率是pi,則nn次迭代之後得到正確匹配關係的概率是:
其中r是每次迭代時提取的影象對數。在本文中,r=4。
因為logo很小,所以較小。為了提高得到正確匹配關係的概率,將RANSAC的迭代次數從500提升至200,000次。這將導致匹配的時間變長,而且測試階段有很大可能找不到測試影象和類模型影象的單應性關係,這種情況下不需要進行全部的迭代過程。所以規定在測試階段,如果匹配點數少於20,系統自動認為兩張影象有很大的可能性找不到單應性關係,直接結束。
3. 互連圖
在訓練影象完成所有可能的連線之後,以圖的形式展示所建立的連線。
假設訓練集共有n張影象,理論上一共會產生n(n-1)/2個有聯絡的影象對。然而實際上,由於遮擋、顏色反轉等,並不是所有的影象對之間都有足夠的資訊而產生一個正確的對映關係。但這並不是一個問題,因為任何兩張影象之間都可以通過其他的影象構建聯絡,即所有影象都可以以直接或間接的方式存在連線。如圖所示。
形成圖之後,可以很方便地找到與其他影象連線數最多的“中心影象”/“核心影象”。在上圖中,img7就是中心影象。與[4]中不同,在本文中為每一條邊賦予了權重,權重大小與匹配的點對數數量成反比。
4. 類模型
訓練的目的是在同一個平面中,聯合所有代表性的關鍵點和它們對應的描述子。聯合特徵指的是將所有的特徵(關鍵點和描述子)對映到某一張影象上。只有關鍵點需要計算,描述子不需要再進行計算。使用之前得出的H,所有影象均可以對映到中心影象上。這裡存在一個問題,對於直接連線的影象,直接應用單應性轉換即可。對於那些間接連線的影象,比如影象1和影象n沒有直接連線,需要通過以下公式完成對映:
由於對映會引入少量的誤差,所以為了儘可能地減少誤差,需要為間接相連的影象選擇合適的對映路徑。明顯地,路徑越長,引入的誤差越多。因為邊緣權重與匹配的點對數數量成反比,這使權重和最小的路徑有最多的匹配點對數,能夠更好地描述特徵,即引入了更少的誤差。5. 錯誤圖譜
為了避免過多的不相關的資訊影響最終的類模型,引入一個關鍵點的預過濾過程。對於每一對對映關係,構建一個錯誤圖譜,它能將正確的和錯誤的匹配分隔開。圖譜的值與區域的匹配正確性有直接關係,過程和[5]中相似。
這個圖譜能夠區分某個區域是正確的對映區域還是遮擋或者形變的區域。下圖顯示了一個錯誤圖譜的例子。(c)是這個對映產生的錯誤圖譜,其中深色區域顯示了正確的匹配,淺色的部分顯示了遮擋或logo的不同之處。
6. 類的描述
在建立類模型時,提取出的特徵點有很多相似的,對映到中心影象後,會有很多位置和描述都十分相近的關鍵點,這會減慢我們的匹配效率。所以進行描述子的量化,從而得到唯一的關鍵點和特徵描述。[6]中,作者提到採用K-D樹能夠完成最大限度的量化,減少計算時間。
7. 光照反轉logo模型
logo影象可能是在不同的光照條件下拍攝的,如下圖所示。一般的SIFT描述符是去計算等效灰度圖的特徵點,能夠很好地描述物體的形狀資訊,但它不能解決不同光照條件的問題。由於SIFT描述符僅計算等效灰度影象的事實,反轉實際上指灰度/亮度水平的反轉; 然而RGB顏色的反轉在很小的程度上意味著灰度級別的反轉。
對於具有不同光照條件的logo影象,在訓練階段,互連圖形成了兩個不同的叢集。具有差不多相同亮度的訓練集中的影象將能夠通過單對映彼此匹配,而具有反相亮度級別的其他影象將聚集在另一個單獨的叢集中。
訓練集中,有的類需要構建光照反轉logo模型,而有的類一個模型就能達到較好的識別效果。為了自動檢測需要反轉模型的類,我們使用類緊湊性標準- 通過分析類的圖:如果識別了兩個單獨的連線元件,那麼該類必須有兩個類模型。 由於中央影象被認為是具有最多連線的中心影象,所以這意味著該類的主要模型由圖中最大的連線分量描述。如果圖的其他叢集中的影象一旦亮度反轉,就能與類模型相匹配,那意味著實際上類將需要一個反向亮度模型。
如果某類需要構建反轉模型,就從第二個叢集中選擇一個“次要中心影象”。如果按照與第一個模型完全相同的步驟來構建類的另一個模型將導致該類的弱描述,因為該叢集包含的影象少於主體,因此資訊較少。之前的第一個模型具有很高的描述力,反轉之後是對類的中的反轉部分進行適當表示。這一次只需要建立關鍵點的SIFT向量,位置保持不變,而SIFT的8個方向則必須進行相應反轉。如下圖所示。
實驗
實驗採用FlickrLogos-32[7],BelgaLogos[8]兩個關於logo的資料集。正確檢測的標準有兩個:logo的確存在在該張影象,並且和GroundTruth的交叉聯合大於50%[9]。
在FlickrLogos-32的檢測中,18類能夠達到100%,27類能達到90%以上。全部的32類logo的準確率高達90.62%。其中Apple和Pepsi類效果不佳,主要原因是兩者的影象大多不平坦,對映時誤差較大。在BelgaLogos的37類logo中,準確率只有78.09%。準確率不及FlickrLogos-32資料集的原因是一些類別的logo具有很少的影象:15類含有少於10張的訓練測試影象。比如Gucci類,一共只有四張影象,包含兩個正樣本兩個負樣本,這大大影響了實驗的準確率。一些實驗結果如下圖所示。
實驗過程中,也發現了一些檢測效果不好的情況。如下圖所示。(a)(b)的主要原因是logo的尺度過小且很模糊;(c)的原因在於logo過小,而且logo的視角十分極端。
參考文獻
[1]Boia R, Florea C, Florea L, et al. Logo localizationand recognition in natural images using homographic class graphs[J]. MachineVision and Applications, 2016, 27(2):287-301.
[2] Revaud J, Douze M, Schmid C. Correlation-basedburstiness for logo retrieval[C]// ACM International Conference on Multimedia.ACM, 2012:965-968.
[3]Hartley R, Zisserman A. Multiple View Geometry inComputer Vision[J]. Kybernetes, 2003, 30(9/10):1865 - 1872.
[4]Boia R, Florea C. Homographic Class Template for LogoLocalization and Recognition[M]// Pattern Recognition and Image Analysis.Springer International Publishing, 2015:487-495.
[5]Florea L, Florea C, Vranceanu R, et al. Can Your EyesTell Me How You Think? A Gaze Directed Estimation of the Mental Activity[C]//British Machine Vision Conference. 2013:60.1-60.11.
[6]Brown M, Lowe D G. Automatic Panoramic ImageStitching using Invariant Features[J]. International Journal of ComputerVision, 2007, 74(1):59-73.
[7]Romberg S, Pueyo L G, Lienhart R, et al. Scalablelogo recognition in real-world images[C]// ACM International Conference onMultimedia Retrieval. ACM, 2011:25.
[8] Joly A, Buisson O. Logo retrieval with a contrariovisual query expansion[C]// International Conference on Multimedia 2009,Vancouver, British Columbia, Canada, October. DBLP, 2009:581-584.
[9] Everingham M, Gool L V, Williams C K I, et al. ThePascal Visual Object Classes (VOC) Challenge[J]. International Journal ofComputer Vision, 2010, 88(2):303-338.
關於FlickrLogos-32,BelgaLogos兩個關於logo的資料集我之前分析過。可以翻看我之前的部落格。