1. 程式人生 > >影象與視訊處理中的優化方法

影象與視訊處理中的優化方法

問題與初步思考

問題重述

問題一:視訊的前後背景分離

給定一段視訊(也可以說給定很多幀連續的影象),視訊中有一些人或者別的東西在動(前景),也有一些不動的景象(背景)。要求使用背景建模的相關技術(最好使用優化方法),區分出前景和背景,輸出為視訊的每一幀對應的前景和背景。

如圖[pic1]所示:

這裡寫圖片描述

影象,左邊是輸入,右邊是輸出。

問題二:主成分提取

輸入為一張由若干張小圖放在一塊拼接而成的大圖,每個小圖都由若干固定成分組合拼接而成。現在要求輸出組成這些小圖的固定成分。

如圖[pic2]和[pic3]所示:

這裡寫圖片描述

這裡寫圖片描述

對問題的思考

第一個問題

對於第一個問題,想要用優化方法求解,優化的物件必然是每一幀影象的前景和背景。那麼,目標函式是什麼呢?想來我們想要做的是將前景和背景儘量分離開來,那麼如何用一個函式來衡量這個分離的優劣呢?

我們可以將每一幀影象拉成一個列向量,那麼一個視訊(若干影象),就可以拉成很多列向量,放在一起,就形成了一個矩陣。假設原視訊形成的矩陣記為 D ,前景視訊記為

A ,背景視訊記為 E ,那麼有 D = A +
E
。考慮到背景是不動的部分,所以 A 的每一列應該儘可能地一樣,也就是說它的秩要儘可能低,向1靠攏。所以,能想到的優化的目標可以是讓 A 的秩儘可能低,但是這個考慮明顯是不足。因為我們隨隨便便就可以讓 A 的每一列都一樣,比如說讓每個元素都是同一個任意的數。咋一看,這問題應該出在了對 E 的約束不足上。細細一想,我們應該讓作為背景的 A 儘可能地“豐滿”,這樣才有可能把背景儘可能地提取出去。換言之,我們應該要讓 E 儘可能稀疏、“瘦小”,換一種考慮,我可以讓 E 的歐式範數儘可能小。

min A , E = | | E | | F , subject to rank ( A ) r D = A + E
剩下的事情就是求解這個優化這個問題了,我們已經建立了優化模型,剩下的我們可以拿著這個問題去問學優化的同學,這種問題是不是NP難的,最好用的演算法是什麼,請提供解法。學數學的同學就會告訴你,數值代數有一條矩陣低秩逼近的結論就是關於這個的,做SVD分解就行了。學優化的同學還會告訴你,哎呀這個因為秩這玩意兒是非凸的,在優化問題裡面很難求解,那麼就需要尋找它的凸近似來近似它了。對,你沒猜錯,我們可以用一個凸的被稱為核範數的東西去近似,它其實是所有奇異值的和,就像我們用1範數取逼近0範數一樣,我們也喜歡用核範數取逼近秩。

所以這個問題搖身一變,可能就不小心變成了RPCA問題:

min A , E = | | A | | + λ | | E | | 1 , subject to D = A + E
剩下的問題,就是變著法地去解這個看起來很凸的問題。

第二個問題

第二個問題,同樣把每一個小圖片拉成一個個向量。問題想起來就很簡單,無非就是尋找右邊的圖,使得存在它的某些個線性組合是左邊的這個個小圖。當然,這種尋找也要滿足某些要求,使得我們“認知”上的需求得到體現,所謂“認知”上的需求,指的是做出來的結果看起來是如圖展示的那麼回事,而不要搞得亂七八糟。

假如用 V 來表示左邊的大圖拉成的矩陣, W 表示我們需要的右邊的結果,也就是主成分拉成的矩陣, H 的每一列表示 V 對應列相對於 W 的組合係數,那麼優化問題很簡單,直接可寫為:

min W , H | | V W H | | s . t . W T 1 H T 2 .
這裡的範數取什麼呢?比如說,你可以取二範數,度量距離嘛。這裡的 T 1 T 2 怎麼取呢?比如說,很自然地想法,在這個問題中,成分取或者不取只有兩個取值即 T 1 { 0 , 1 } ,然後還可以加上其他的一些約束,比如說, H 的正交約束等等。 H 對應位置的相互約束影響等等,比如說機身、機翼和機尾只能各取一個等。

一般解法

以下我們都且只考慮第一個問題的一個詳細的解法與演算法等。

經典目標檢測方法

1、背景差分法
,如果背景是靜止的,利用當前影象與預存的背景影象作差分,再利用閾值來檢測運動區域的一種動態目標識別技術。背景差分演算法適用於背景已知的情況,但難點是如何自動獲得長久的靜態背景模型。MATLAB
中單純的背景差分直接是函式imabsdiff(X,Y)就可以。\
2、幀差分法
。在運動的檢測過程中,該方法利用時間資訊,通過比較影象中若干連續幀獲得對應畫素點的灰度差值,如果均大於一定的閾值T2,則可以判斷該位置存在運動的目標,較適合於動態變化場景。
3、光流場法
。能夠較好的從背景中檢測到相關前景目標,甚至是運動屋裡中的部分運動目標,適用於攝像機運動過程中相對運動目標的檢測。

新目標檢測方法

1、畫素點操作
,判別為前景或者背景兩類。
2、低秩矩陣應用
。下面的例子就是將背景與前景分離開。使用的方法是RPCA的方法。
3、深度學習
FCN +
denseCRF,精確分割+語義標籤。影象中的前景目標檢測分割做的很好,下面還能做出語義檢測,判斷出圖中的東西屬於什麼。

某些方法思想簡述

迭代閾值方法

迭代閾值方法(IT)解決某個的鬆弛凸問題,迭代地更新A,E和Y。它通過相對於A和E最小化L(A,E,Y)來更新A和E,同時把Y固定。
然後,使用約束A + E =D的違反度來更新Y。為方便起見,我們引入了軟閾值(收縮)運算子。此運算子可以擴充套件為向量和矩陣,以元素方式應用它。然後IT方法按照演算法1中的描述工作,IT演算法需要非常大量的迭代來收斂,並且難以選擇步長 δ K 來加速,因此其適用性是有限的。

加速近端梯度法

加速近端梯度法(APG)用以解決某個無約束凸問題,在一個真正的希爾伯特空間中,賦予內積 , 和相應的範數 . ,g和f都是凸的,f是Lipschitz連續的: f ( x 1 ) f ( x 2 ) L f x 1 x 2 ,可以區域性逼近f(X)作為二次函式。這種方法被認為很容易更新解X。

通過前人研究,上述加速的近端梯度方法可以直接應用於鬆弛版本的RPCA問題,可以大大加速收斂。

高斯混合模型(GMM)

高斯模型就是用高斯概率密度函式正態分佈曲線)精確地量化事物,將一個事物分解為若干的基於高斯概率密度函式(正態分佈曲線)形成的模型。
對影象背景建立高斯模型的原理及過程:影象灰度直方圖反映的是影象中某個灰度值出現的頻次,也可以以為是影象灰度概率密度的估計。如果影象所包含的目標區域和背景區域相差比較大,且背景區域和目標區域在灰度上有一定的差異,那麼該影象的灰度直方圖呈現雙峰-谷形狀,其中一個峰對應於目標,另一個峰對應於背景的中心灰度。對於複雜的影象,尤其是醫學影象,一般是多峰的。通過將直方圖的多峰特性看作是多個高斯分佈的疊加,可以解決影象的分割問題。

在智慧監控系統中,對於運動目