1. 程式人生 > >計算機視覺基礎2——相機成像的幾何描述

計算機視覺基礎2——相機成像的幾何描述

試想像一下,很多遊客同時在不同角度拍攝Eiffel Tower(埃菲爾鐵塔),該如何用數學的方法來描述這一過程呢?首先要解決的問題就是定位,或者說座標選定的問題,埃菲爾鐵塔只有一座,如果按經、緯度來刻畫,它的座標是唯一確定的,但遊客顯然不關係這一點,他(她)只按自己的喜好選擇角度和位置,因此,物體(景物)有物體的座標系統,相機有相機的座標系統,即便同一個相機,當調整引數時,在同樣的位置、相同的角度,也可能得到不同的影象。為了統一描述,有必要引入世界座標(或物體座標)、相機座標和像平面座標。

image

世界座標用UVW記。

image

相機座標用XYZ記。中學物理告訴我們,物體與像是倒的關係,但作為數學分析,我們採用虛像。像平面用xoy記。

image

而數字影象用(u,v)來表示,不弄混淆像平面和數字影象這兩個概念,同一個像通過平移、拉伸等,可以得到不同的數學影象(u,v)。

image

總體來看,就是

image

image

我們需要用數學的語言來描述這一過程。先看中間部分。

image

紅框標註的部分是3D物體到2D像平面的透視投影(如果不明白透視投影的概念,需要補一下高等幾何)

image

image

顯然,OP上的任一點的像都是p(x,y),為了描述這一關係,需要引入齊次座標。

By convention, we specify that given (x’,y’,z’) we can recover the 2D point (x,y) as

x=\frac{x^'}{z^'}

x=\frac{x^'}{z^'}     y=\frac{y^'}{z^'}y=\frac{y^'}{z^'}    

Note: (x,y) = (x,y,1) = (2x, 2y, 2) = (k x, ky, k)

關於齊次座標,更詳細的介紹可參考高等幾何。

上述透視投影的過程可以描述為

image

正如開頭所言,不同遊客會選擇不同的位置和角度拍攝同一物體,因此,物體對於相機的關係各不相同,這就是物體到相機座標變換的問題。

image

上述紅框部分描述的是從物體的座標(稱為世界座標)到相機座標變換的過程,它是一種剛體運動,可以用平移、旋轉來描述。

image

上圖表示的是從世界座標變換到相機座標:P

c=R(PwC)Pc=R(Pw−C),寫成矩陣形式

image

平移是容易理解的,我們先討論更簡單的情形,即假設世界座標系和相機座標系的原點重合,則變換隻剩下旋轉了。

image

旋轉矩陣的元素也很容易確定。試想(U,V,W)=(1,0,0),而它在相機座標系中的座標是(X,Y,Z)=(a,b,c)(同一物理點的不同座標)則有:

image

因此有:

image

由於該旋轉是剛體運動,因此它是正交變換,滿足R1=RTR−1=RT,所以有:

image

不難得出:

image

看一個例子:

image

由於物體的座標到相機座標的變換,相對於相機內部引數而言屬於外部引數(External Parameters),往往寫作R和T,即

image

總結

image

本小節講述瞭如何將3D世界座標系中的點變換到相機座標系中,然後經透視投影,變成2D像平面上的點(x,y).

總結:這個比第一節要難理解些,設計到一些矩陣變換,三維到二維資訊的變換。