論文:LBD-線段描述子算法(草稿)
前言
摘要(Abstract)
本文的線段匹配算法利用了線段的局部相似性和幾何屬性。本算法具有以下優點:(1)提出多尺度下線段提取策略,提高對圖像變換的魯棒性。(2)設計LBD描述子,提高計算線段表面相似度的速度和減少圖匹配的維度。(3)成對幾何一致性評價,提高圖像在低結構化的匹配精度。
簡介(Introduction)
一、線段提取與匹配(line detection and description)
1.1、尺度空間下提取線段(detecting lines in the scale space)
為了克服線段提取中的割裂問題(fragmentation problem)和提高大尺度變換(large scale change)下的算法性能,我們對原始圖像進行一系列尺度因子的降采樣(down-sampling)和高斯模糊(Guassian blurring)從而形成包含N張圖像的尺度空間金字塔(scale-space pyramid)。首先,我們運用EDLine算法對每層的圖像產生一組直線,每條直線的方向由邊緣像素點從左側到右側的梯度構成。然後,我們根據尺度空間中直線的對應關系來重新組織這些直線,給每一條直線分配一個唯一的ID。我們將尺度空間中具有相同事件關系(即圖像的相同區域具有相同的方向)的直線存儲到一個稱為LineVecs的向量中。最後,線段提取的結果是如圖1所示的一組向量。本文中的線段提取算法和Wang et al. 算法的區別在於本文通過重新組織不同尺度空間下提取的線段從而形成一組LineVecs向量,該方法能夠有效的減少圖匹配問題的維數(dimension)。
如圖1所示,每一個LineVec向量都至少包括尺度空間中的一條線段。為了描述LineVec向量的局部外觀,我們需要對每條線段產生一種線段描述符。
1.2、條帶表示線段支持域(the band representation of the line support region)
給定圖像中的一條線段,線段描述子可由線段支持域(LSR,包含線段的局部矩形區域)計算得到。如圖2所示,將線段支持域分成一系列的相互平行的條帶(band){B1; B2; . . . ; Bm},設條帶的數目為m,每個條帶的寬度為w,長度等於線段的長度。例如圖2中的m=5,w=3。
類似於MSLD算法,為了區別具有相反方向的平行線段和使線段描述子具有旋轉不變特性(rotation invariant),本文引入兩個方向dL
啟發於SIFT和MSLD算法,對LSR區域的每一行應用兩個高斯函數(全局高斯函數和局部高斯函數)。首先,LSR區域的第i行應用全局權重系數:,其中di為LSR區域中第i行到中心行的距離,和。然後,考慮到條帶Bj,對條帶Bj和相鄰的條帶Bj-1和Bj+1的第k行應用局部權重系數:,其中dk‘為第K行到條帶Bj中心行的距離,和
該條帶描述子相對於子區域表達具有兩個優勢:第一,它在方向的小位置變化更具有魯棒性,因為條帶中大部分的圖像內容能夠保持不變,在條帶邊界部分只有少量的變化。註意,這是一條很重要的特性,因為由於線段端點的不穩定性,dL方向的位置精度要低於d⊥方向。第二,它的計算效率更高,因為每個條帶之間在dL方向沒有重疊,高斯權重直接作用於每一行,而不是每個像素。
1.3、條帶描述子的構造(the construction of the line band descriptor)
對於LSR區域的條帶Bj,它的描述子由相鄰的條帶Bj-1和Bj+1計算得到。特別的,對於頂部和底部的條帶B1和Bm,在計算他們描述子時不考慮LSR區域外的部分,需要單獨計算。因此,LBD描述子由各條帶的描述子{BDj}組成:LBD=(BD1T,BD2T,....,BDmT)T。
現在我們構造條帶描述子BDj,對於條帶Bj的第K行,我們累計該行像素的梯度值,由以下公式計算可得:
其中高斯系數。
通過條帶Bj所有行的四個累積梯度,可以構造條帶描述矩陣BDM,如下所示:
其中n為計算條帶Bj描述子中需要的行數:
條帶描述子BDj由條帶描述子矩陣BDMj的均值向量Mj和標準差向量Sj構成:BDj=(MjT,SjT)T∈R8,線段條帶描述子LBD=(M1T,S1T,M2T,S2T,....,MmT,SmT)T∈R8m。
LBD的均值部分和標準方差部分由於其大小不同,分別進行規範化處理。此外,為減少非線性光照變化的影響,對LBD每個維度的進行抑制,使它小於一個閾值(經驗:0.4的是一個很好的值)。最後,我們重新規範約束向量得到單元的LBD。
二、基於光譜技術的圖匹配(graph matching using spectral technique)
2.1、生成候選匹配對(generation the candidate matching pairs)
在檢測參考圖像(reference image)和查詢圖像(query image)的LinVecs時,如果不能通過一元幾何屬性(unary geometric attributes)和局部表面相似性(local apperance similarity)測試,則認為是不匹配。
一元幾何屬性:本文中的一元幾何屬性是指LineVec的方向,相同LineVec的線段具有相同的方向,並且每一個LineVec具有一個獨一無二的方向。由於圖像對具有任意角度的旋轉,所以圖像對中對應的LineVecs通常是模糊和不可靠的(ambiguous and unreliable)。所以通過估計圖像對的近似全局旋轉角這一屬性來減少候選匹配對的數量。
首先,我們計算圖像對(參考圖像和查詢圖像)的LineVecs的方向直方圖(histograms),歸一化(normalized)處理得到直方圖(hr; hq),下標(subscript)r表示(donate)參考圖像,下標q表示查詢圖像。然後,以角度角度Θ(0-2π)改變hq的來搜索近似全局旋轉角Θg,由下列公式可得:。在實踐中如果直方圖距離較小,則可認為圖像對的變換關系可通過旋轉近似。如圖3所示,估計的近似全局旋轉角為:0.349 rad;偏移的直方圖距離為:0.243。此外,如果圖像中提取的線的重復性很低,則基於直方圖的方法可能會失敗,即錯誤的旋轉角度可能被該算法接受。為了提高這種方法的魯棒性,對於直方圖落入同一bins的直線,它們的長度被累加起來。因此,對應於方向直方圖,有一個長度向量,其第i個元素是所有線的累積長度落在方向直方圖的第i個bin中。在我們的實驗中,當最小偏移直方圖距離小於閾值(0.4)時,並且最小偏移長度向量距離小於閾值(1),我們接受估計的全球旋轉角。一旦被接受,一對LineVecs就會被匹配,如果(pi/4),是它們的方向之間的夾角,它們被認為是不匹配的。如果兩個圖像之間沒有可接受的旋轉角度,那麽只測試外觀相似性。
局部外觀相似性:
2.2、簡歷關系圖(building the relational graph)
2.3、生成最終匹配結果(generating the final matching results)
三、描述子性能測試
首先我們分析LSR區域的參數對描述子性能的影響,例如條帶的數量m和條帶的寬度w,然後對比評估下LBD和MSLD算法的性能。我們使用Mikolajczyk and Schmid數據集(dataset)來評估線段描述子的性能,該數據集包括八組不同變換的圖像:光照變換(illumination changes)、平面旋轉(in-plane rotation)、JPEG圖像壓縮(JPEG compression)、圖像模糊(image blurring)、圖像遮擋(image occlusion)、低紋理下的視點變換(low-texture scene)、紋理場景和尺度變換(scale variation)。每一組中包括六張從小到大變換的圖像,圖5中的a,c,d來至於數據集,其他的來自於實際拍攝以保證圖像中包含線段特征。為了更好的評估在不同圖像變換下描述子的性能,我們從原始圖像中(original image)提取線段而不是灰度圖像(octave image)中。
針對這一部分的描述子的匹配性能,我們使用最近鄰匹配準則(nearest neighbor matching criterion),就是根據描述子的距離來匹配線段從而可以避免不同描述子偏愛不同的距離閾值而造成距離閾值的偏差(prejudice)。這個匹配準則的另一個優勢就是召回率(recall ratio 正確匹配的數目和所有真實對應的數目的比值)和準確率(matching precision 正確匹配的數目和所有匹配的數目的比值)是由正確匹配的數量唯一決定,因為不同的描述子的分母都是一樣的。
3.1、描述子的維度(the descriptor dimension)
我們通過實驗分析LSR參數對描述子性能的影響,改變條帶數量m和條帶寬度w的範圍從3到13.如圖6所示,圖像中正確匹配的數量由這兩個參數影響。我們可以看出:無論LBD還是MSLD算法,首先隨著m或者w數量的增加,算法的性能會急速提高。然後在m=9和w=7、9時,算法的性能達到峰值,最後趨於平穩。
同時我們需要評價這兩種描述子的時間性能,選取一張900X600的圖像,提取573條直線段,結果如表1所示。從表1可知,隨著m和w的增加,運行算法的消耗的時間也相應的增加。LBD算法的運行時間較MSLD算法在m的增加上更不敏感,尤其是在w的增加上。(也就是說LBD的算法耗時更少)。
通過以上試驗評估,描述子算法試驗選取LSR參數為:m=9,w=7。從而該描述子為72維的描述子。LBD算法和MSLD算法的運行時間分別為28ms和137ms。
3.2、LBD和MSLD的進一步比較(Further comparision of MSLD and LBD)
在本部分,我們將詳細比較這兩種算法在數據集試驗中的效果,LBD和MSLD算法的召回率如圖7所示。
(a) shows the performances of MSLD and LBD for the image illumination changes. From image 1 to image 5, the lighting condition gets worse. The recall ratios decrease with the increment of the lighting distortion.
(b) shows the results for images which are generated by a set of in-plane rotation varying from15° to75° .It is interesting that when the rotation angle is 45 (between image 3 and the reference image), LBD and MSLD perform worst because of the aliasing of discrete lines.
(c) and (d) show the descriptor performance against the image compression and the image blurring, respectively. Not surprisingly, the performances decrease with the increment of the image compression ratioor the image blurring.
(e) shows the descriptor performance against image occlusion(遮擋). To evaluate the occlusion effect, we first artificially add some vertical line(垂直線) features in a background image, then shift the region of interest along the vertical direction of the artificial image to generate a set of smaller images as shown in Fig. 5(e). This process makes sure that for the most of the lines, their LSR in the image sequencewill change gradually (some part of the LSR moves out or in). The results show that the descriptor performance decreases with the increment of the image occlusion.
(f) shows the descriptor performance in the lowtexture scene. Images in this sequence are captured in front of the window with small view point changes. The results do not show drastic change(巨大的變化) in performance because of the small baseline between images.
(g) shows the descriptor performance against large view point change. The view angles between the query images and the reference image range approximately from
-70° to 60° . No doubt, the descriptors perform better when the absolute value of the view angle is smaller (image3 and image4).
(h) shows the most challenging case for the descriptors, i.e, the large scale change. The scale ratio between the query images and the reference image range from 0.9 to 0.3. The performance decreases fast with the scale change.
四、線段匹配性能測試
論文:LBD-線段描述子算法(草稿)