1. 程式人生 > >非監督HMP演算法的物體識別

非監督HMP演算法的物體識別

原文Unsupervised Feature Learing for RGB-D Based Object Recognition

應該算是花了比較長時間來看的一篇論文,理解起來也相較容易,而且最近看的論文大都也是使用的K-SVD演算法進行編碼,得到的效果十分不錯。

使用HMP對RGB-D影象進行影象識別,特點無監督學習特徵,使用HMP(hierarchical matching pursuit)進行特徵表示 HMP使用稀疏編碼,直接從RGB-D資料中進行無監督學習分層特徵表示 學習過程中採用K-SVD演算法對特徵進行編碼,並且特徵採用分層的方式,使用正交匹配跟蹤(orthogonal matching pursuit)以及空間金字塔池化進行學習。 使用核描述符學習patch級特徵,對照人工設計的畫素描述符,如梯度等進行設計實現。隨後使用K-SVD演算法對特徵 使用空間編碼對學到的特徵進行表示,使用基於特徵學習的K-SVD對RGB-D影象進行表示。 非監督特徵學習 -首先使用K-SVD進行字典學習,例,對於一塊5*5畫素的RGB-D patch而言,字典所包括的向量大小為5*5*8,其中8的大小是由灰度強度,RGB,深度以及表面法向量值決定的。 -使用正交匹配追蹤計算空間編碼矩陣,在上一步中實現了dict,下面對每一個xn(對應字典矩陣中的每一列)都使用OMP進行迭代計算,在每步迭代過程中,OMP選擇codeword dm,使得能夠最佳匹配當前剩餘的,也就是說在選擇當前codeword後,重建後錯誤仍能夠保持。 -使用單值分解(Singular Value Decomposition,SVD)更新字典,在第m步中,第m個codeword以及它的空間編碼能夠通過對剩餘的這個codeword的相關矩陣使用SVD計算實現。 在分層匹配追蹤中,使用K-SVD學習字典,第一層提取patches,第二層是對第一層空間編碼的池化。第一層學習的特徵有灰度,RGB,深度以及深度影象的表面法向量。一旦完成通過K-SVD學習的字典,稀疏編碼就可以用於計算新的影象。
-分層匹配追蹤(HMP),通過學習到的字典D,分層匹配追蹤建立了一個特徵層級,通過遞迴使用正交匹配追蹤編碼器實現。編碼器由三個模組組成,包括batch 正交匹配追蹤,金字塔最大池化,以及對比度歸一化。 在分層匹配追蹤過程中,在第一層,稀疏編碼在每個畫素上都進行計算,隨後進行空間金字塔最大池化以進入特徵向量,表示一個16*16的patch;第二層使用從取樣patch級別的特徵向量字典對這些特徵向量進行編碼。整幅圖片的特徵使用第一層和第二層的稀疏編碼進行表示。         稀疏編碼計算每個畫素點--->使用空間金字塔最大池化變為特徵向量A--->進入第二層,使用patch級的特徵向量字典對這些特徵向量再進行編碼B 最終圖片的特徵就由特徵向量A和特徵向量B共同表示