影象與視訊處理中的優化方法
問題與初步思考
問題重述
問題一:視訊的前後背景分離
給定一段視訊(也可以說給定很多幀連續的影象),視訊中有一些人或者別的東西在動(前景),也有一些不動的景象(背景)。要求使用背景建模的相關技術(最好使用優化方法),區分出前景和背景,輸出為視訊的每一幀對應的前景和背景。
如圖[pic1]所示:
影象,左邊是輸入,右邊是輸出。
問題二:主成分提取
輸入為一張由若干張小圖放在一塊拼接而成的大圖,每個小圖都由若干固定成分組合拼接而成。現在要求輸出組成這些小圖的固定成分。
如圖[pic2]和[pic3]所示:
對問題的思考
第一個問題
對於第一個問題,想要用優化方法求解,優化的物件必然是每一幀影象的前景和背景。那麼,目標函式是什麼呢?想來我們想要做的是將前景和背景儘量分離開來,那麼如何用一個函式來衡量這個分離的優劣呢?
我們可以將每一幀影象拉成一個列向量,那麼一個視訊(若干影象),就可以拉成很多列向量,放在一起,就形成了一個矩陣。假設原視訊形成的矩陣記為
,前景視訊記為
剩下的事情就是求解這個優化這個問題了,我們已經建立了優化模型,剩下的我們可以拿著這個問題去問學優化的同學,這種問題是不是NP難的,最好用的演算法是什麼,請提供解法。學數學的同學就會告訴你,數值代數有一條矩陣低秩逼近的結論就是關於這個的,做SVD分解就行了。學優化的同學還會告訴你,哎呀這個因為秩這玩意兒是非凸的,在優化問題裡面很難求解,那麼就需要尋找它的凸近似來近似它了。對,你沒猜錯,我們可以用一個凸的被稱為核範數的東西去近似,它其實是所有奇異值的和,就像我們用1範數取逼近0範數一樣,我們也喜歡用核範數取逼近秩。
所以這個問題搖身一變,可能就不小心變成了RPCA問題:
剩下的問題,就是變著法地去解這個看起來很凸的問題。
第二個問題
第二個問題,同樣把每一個小圖片拉成一個個向量。問題想起來就很簡單,無非就是尋找右邊的圖,使得存在它的某些個線性組合是左邊的這個個小圖。當然,這種尋找也要滿足某些要求,使得我們“認知”上的需求得到體現,所謂“認知”上的需求,指的是做出來的結果看起來是如圖展示的那麼回事,而不要搞得亂七八糟。
假如用
來表示左邊的大圖拉成的矩陣,
表示我們需要的右邊的結果,也就是主成分拉成的矩陣,
的每一列表示
對應列相對於
的組合係數,那麼優化問題很簡單,直接可寫為:
這裡的範數取什麼呢?比如說,你可以取二範數,度量距離嘛。這裡的 怎麼取呢?比如說,很自然地想法,在這個問題中,成分取或者不取只有兩個取值即 ,然後還可以加上其他的一些約束,比如說, 的正交約束等等。 對應位置的相互約束影響等等,比如說機身、機翼和機尾只能各取一個等。
一般解法
以下我們都且只考慮第一個問題的一個詳細的解法與演算法等。
經典目標檢測方法
1、背景差分法
,如果背景是靜止的,利用當前影象與預存的背景影象作差分,再利用閾值來檢測運動區域的一種動態目標識別技術。背景差分演算法適用於背景已知的情況,但難點是如何自動獲得長久的靜態背景模型。MATLAB
中單純的背景差分直接是函式imabsdiff(X,Y)就可以。\
2、幀差分法
。在運動的檢測過程中,該方法利用時間資訊,通過比較影象中若干連續幀獲得對應畫素點的灰度差值,如果均大於一定的閾值T2,則可以判斷該位置存在運動的目標,較適合於動態變化場景。
3、光流場法
。能夠較好的從背景中檢測到相關前景目標,甚至是運動屋裡中的部分運動目標,適用於攝像機運動過程中相對運動目標的檢測。
新目標檢測方法
1、畫素點操作
,判別為前景或者背景兩類。
2、低秩矩陣應用
。下面的例子就是將背景與前景分離開。使用的方法是RPCA的方法。
3、深度學習
FCN +
denseCRF,精確分割+語義標籤。影象中的前景目標檢測分割做的很好,下面還能做出語義檢測,判斷出圖中的東西屬於什麼。
某些方法思想簡述
迭代閾值方法
迭代閾值方法(IT)解決某個的鬆弛凸問題,迭代地更新A,E和Y。它通過相對於A和E最小化L(A,E,Y)來更新A和E,同時把Y固定。
然後,使用約束A + E =D的違反度來更新Y。為方便起見,我們引入了軟閾值(收縮)運算子。此運算子可以擴充套件為向量和矩陣,以元素方式應用它。然後IT方法按照演算法1中的描述工作,IT演算法需要非常大量的迭代來收斂,並且難以選擇步長
來加速,因此其適用性是有限的。
加速近端梯度法
加速近端梯度法(APG)用以解決某個無約束凸問題,在一個真正的希爾伯特空間中,賦予內積 和相應的範數 ,g和f都是凸的,f是Lipschitz連續的: ,可以區域性逼近f(X)作為二次函式。這種方法被認為很容易更新解X。
通過前人研究,上述加速的近端梯度方法可以直接應用於鬆弛版本的RPCA問題,可以大大加速收斂。
高斯混合模型(GMM)
高斯模型就是用高斯概率密度函式(正態分佈曲線)精確地量化事物,將一個事物分解為若干的基於高斯概率密度函式(正態分佈曲線)形成的模型。
對影象背景建立高斯模型的原理及過程:影象灰度直方圖反映的是影象中某個灰度值出現的頻次,也可以以為是影象灰度概率密度的估計。如果影象所包含的目標區域和背景區域相差比較大,且背景區域和目標區域在灰度上有一定的差異,那麼該影象的灰度直方圖呈現雙峰-谷形狀,其中一個峰對應於目標,另一個峰對應於背景的中心灰度。對於複雜的影象,尤其是醫學影象,一般是多峰的。通過將直方圖的多峰特性看作是多個高斯分佈的疊加,可以解決影象的分割問題。
在智慧監控系統中,對於運動目