[視覺] 計算機視覺知識點小結

Gestalt Laws（格式塔法則）

Law of Proximity（接近原則）

物體越接近，那麼它們更容易被感知為同一組的。

Law of Similarity（相似原則）

若物體具有相似特徵，那麼它們更容易被感知為同一組的。

Law of Common Fate（共方向原則）

若物體向共同方向運動，那麼它們更容易被感知為同一組的。

Law of Symmetry（對稱原則）

我們傾向於把不對稱，不完全，複雜的圖形感知成對稱、完全、簡單的圖形。

Law of Continuity（連續原則）

我們傾向於感知連續，而不是零散。也就是我們會把一些看起來零碎的東西看做是連續的。

Law of Closure（封閉原則）

哪怕物體不完整（不存在），我們也能根據認知腦補出缺失的部分。

Marr視覺表示框架的三個階段？

Primal Sketch

進行影象處理。提取角度、邊緣、紋理、線條、邊界等基本特徵。

2.5D Sketch

以觀測點為中心的座標系中，恢復場景可見部分深度、法線、輪廓等資訊。

3D Model

以物體為中心的座標系中，恢復、表示和識別三維物體。

二值影象

幾何特性

面積：

區域中心：

方向：有些形狀無方向，其餘以長軸方向為形狀的方向。方向的直線方程：

求出夾角：

伸長率：

密集度：

形態比：區域的最小外界矩形長寬比。尤拉數：連通分量數 - 洞數

投影計算

水平投影：計算每一列畫素為1的個數。垂直投影：計算每一行畫素為1的個數。對角線投影：從左下到右上，計算每一個對角線畫素為1的個數。

連通區域

連通分量標記演算法（貫序）

第一個方法是遞迴，也就是找到沒有標記的畫素值為1的點，遞迴標記鄰接點。第二個方法是貫序，就是從左到右，從上到下掃描。對於當前掃描到的畫素點，如果它的畫素值為1： 1）上面點和左面點僅有一個有標記，複製 2）上面點和左面點標記相同，複製 3）上面點和左面點標記不同，複製上面點的標記，並記錄為等價標記。 4）上面點和左面點都無標記，分配一個新的標記。

區域邊界跟蹤演算法

（1）從左到右，從上到下掃描影象，求得起始點。（2）c為當前跟蹤的畫素點：

從n1~n8，找到第一個邊界點。則找到的點為新的c。（3）重複上述操作。直到回到第一個邊界點。

邊緣

模板卷積（能計算卷積）

Origin of Edges

surface normal discontinuity（表面法線不連續） depth discontinuity（深度不連續） surface color discontinuity（表面顏色不連續） illumination discontinuity（光照不連續）

邊緣檢測的基本思想

邊緣檢測的目標是找到影象中突變（不連續）的地方。大多數語義和形狀的資訊都能從邊緣資訊中獲取。

基於一階的邊緣檢測（梯度）

（1）Roberts交叉運算元

（2）Sobel運算元

（3）Prewitt運算元

基於二階的邊緣檢測

原理：二階導數過零點為邊緣 -Laplacian運算元

-LoG運算元先與高斯函式卷積，再求拉普拉斯微分；或先求拉普拉斯微分，再與影象卷積。

（拉普拉斯）為什麼高斯：平滑去噪和邊緣檢測是一對矛盾，應用高斯函式的一階導數，在二者之間獲得最佳的平衡

Canny邊緣檢測

1.高斯濾波

2.一階偏導計算梯度和方向

3.梯度幅值非極大值抑制

將方向角離散到四個扇區之一。

（如果M[i,j]不比沿梯度線方向上的兩個相鄰點幅值大，則N[i,j] = 0）

4.用雙閾值檢測和連線邊緣

（1）設高低兩個閾值（2）大於兩個閾值：是邊緣；大於低閾值小於高閾值，可能是邊緣。在高閾值邊緣圖中出現斷點後，在低閾值邊緣圖中搜索邊緣點。

區域性特徵

Harris角點檢測

w(x,y)為視窗,I 為導數，u,v為偏移。以上公式可近似為：

其中：

推導過程：

我們可以求出M的特徵值，如果兩個特徵值都很大，並且比較接近，那麼是角點；如果一個遠大於另一個，那麼是邊；否則是平面區域。用響應函式R來衡量是否是角點，計算方法如下（k取0.04-0.06）：

若 R>0（大於某一閾值），則為角點；R<0，則為邊；R絕對值很小，則為平面區域。選取R得到的符合條件點的區域性最大值作為結果。

SIFT描述子

1.構建尺度空間，建立影象金字塔。 2.尋找極值點（相鄰的26個點中最大/最小值） 3.去除不好的特徵點：使用近似的harris corner，檢測關鍵點的位置和尺度，並且去除邊緣響應點。 4.16X16的視窗來檢測特徵。對每個畫素計算邊的朝向（梯度角度-90），然後轉換到8個方向上，並分割到4X4的網格中。（共128維資料）剔除不好的邊（梯度閾值）。建立存留邊朝向的直方圖。利用關鍵點鄰域畫素的梯度方向分佈特性為每個關鍵點指定方向引數，使運算元具備旋轉不變性。

尺度不變的原理

哪怕處在不同的尺度，它們對應的區域是相同的。

Hough變換直線檢測

影象中每一點對引數組合進行表決，贏得多數票的引數組合為勝者（結果）。用極座標來表示直線，從(x,y)轉換到(p,0)空間。

1.量化引數空間（到合適的精度） 2.初始化累加器為零。 3.對每一點，在其滿足的引數方程對應的累加器加1. 4.得到累加器最大值對應模型的引數

影象的傅立葉變換

變換：用正弦來表示，對於二維影象而言，由以下的基影象表示：

低頻與高頻：亮度灰度劇烈變化的地方是高頻（影象邊緣和輪廓的度量），對應邊緣；變化不大的是低頻（影象強度的綜合度量），對應大片色塊。近處看到的是高頻分量，遠處觀察到的是低頻分量。

怎麼理解拉普拉斯金字塔的每一層是帶通濾波？

拉普拉斯金字塔是將影象下采樣後再上取樣得到的差值影象。相減保留細節高通下采樣降噪低通

相機模型

景深：

攝像機鏡頭能夠取得清晰影象的成像所測定的被攝物體前後距離範圍。

景深大，背景和物體都很清楚；景深小，物體清楚，但背景虛化。

景深隨鏡頭的焦距、光圈值、拍攝距離而變化。對於固定焦距和拍攝距離，使用光圈越小，景深越大。

焦距越短，鏡頭的視場角越寬。

Equation 1

理想的針孔相機（pinhole camera）模型

投影公式：

引數：內參數

fx,fy焦距，cx,cy主點座標

其中，dx和dy是x和y方向一個畫素的長度；r是；u0和v0代表影象中心和原點座標之間橫縱相差的畫素個數。 ⎡⎣⎢uv1⎤⎦⎥=⎡⎣⎢⎢⎢⎢⎢1dx0001dy0001⎤⎦⎥⎥⎥⎥⎥⎡⎣⎢xy1⎤⎦⎥ K=⎡⎣⎢fx000fy0u0v01⎤⎦⎥

考慮傾斜： ⎡⎣⎢uv1⎤⎦⎥=⎡⎣⎢⎢⎢⎢⎢⎢1d