1. 程式人生 > >運動物體檢測論文(2)

運動物體檢測論文(2)

在第之前的章節中,已經提出RIMF來檢測移動畫素。 為了計算RIMF,應首先估算GIMF。 此外,RIMF的不確定性也可以根據自我運動和視差圖不確定性來計算。 Global Image Motion Flow (GIMF)怎麼計算呢?   GIMF用於表示由相機運動引起的影象運動流。 給定前一影象幀中的畫素位置pt-1 =(ut-1; vt-1; 1)^T,我們可以根據Eq (1) 預測其當前幀中的影象位置pt =(ut; vt; 1)^T。。 理論上,當前幀中3D靜態點的影象位置對應關係可以通過前一幀中的深度資訊和相機的相對運動資訊來預測。 但是,此預測僅在3D點來自靜態物件時才起作用,並且不適用於動態物件。 最後,由攝像機運動引起的影象點(u; v)^T的GIMF 光流值g =(gu; gv)^T可表示為:                                                                                                          (6) Residual Image Motion Flow RIMF 計算   假設在點(u; v)處的前一幀和當前幀之間估計的MOF是m =(mu; mv)^T,則RIMF的值q =(qu; qv)^T被計算為:                                                                                  
理想情況下,靜態點的RIMF應為零,而移動點的RIMF應大於零。簡單地將RIMF絕對差異與固定閾值進行比較不會得到令人滿意的結果,能將運動畫素與靜態畫素區分開,因為不同3D世界位置的點具有不同的影象運動。此外,估計的不確定性,例如,在相機運動或畫素深度上,對影象點有不同的影響。忽視這些不確定性可能導致大量誤報檢測。 RIMF的不確定性主要來自四個部分。 第一個也是最重要的一個是相機運動估計的不確定性,因為它根據方程(1)對每個畫素具有全域性影響。此外,它會影響不同位置的畫素。 第二個影響部分是深度估計的誤差, 第三個影響部分來自光流估計過程。 最後一個是畫素位置噪聲,它直接來自影象噪聲(影象校正,相機本徵和外部校準,數字影象量化等)   Motion Likelihood Estimation  運動似然估計 如上所述,固定閾值不會得到檢測移動畫素的令人滿意的解決方案。 為了處理這個問題,使用一階高斯近似將RIMF的不確定性從感測器傳播到最終估計。 如在等式(7)中,RIMF是相機運動θ,前一幀處的畫素位置(u; v),視差d和測量的光流(μ; mv)的函式。在這項工作中沒有考慮測量光流的不確定性,因為它隻影響區域性的檢測結果。 基於[5]中的前向協方差傳播框架,可以使用如下的一階近似來計算RIMF協方差:                                                                                    
其中J表示關於每個輸入變數的雅可比矩陣(例如,相機運動Θ,畫素位置(u; v)和前一幀中的視差值d)和Σ= diag(ΣΘ;Σo)是協方差矩陣 所有輸入變數。 相機運動的協方差矩陣是ΣΘ,估計過程中的視差值的協方差矩陣是Σo=diag (σu2;σv2; σd2),其中σu和σv是用於描述相機的畫素量化誤差和σd的方差。 在[18]中,作者提出視差圖的不確定性也可以被認為是近似標準高斯分佈,其方差可以線性近似為:                                                                             
其中σ0和γ是兩個常數引數,其中Ud(u; v)是位置(u; v)上的視差值的不確定性。 這裡,匹配成本用作視差值的置信度度量(更多細節可以在[29]中找到)。 與Σ中每個引數的方差相比,自我運動引數,位置和視差之間的協方差可以忽略不計,並且估計過程是困難的。 基於上面估計的ΣRIMF,我們可以計算流向量移動的可能性。 假設靜止世界和高斯誤差傳播,假設流向量遵循具有零均值和協方差矩陣ΣRIMF的高斯分佈。 可以通過擬合優度檢驗該零假設來檢測與該假設的偏差。 或者,可以計算與RIMF向量相關聯的Mahalanobis距離[30]:                                                                                其中q是在等式7中定義的特定影象位置處的RIMF向量。 由於μ2q是χ2分佈的,因此可以根據其μq值來計算RIMF向量的RIMF運動似然ξ(m)。   在圖(3)中,子圖(a),(b)是由曼哈頓距離μq產生的運動似然影象。 綠色畫素被檢測為靜態畫素,紅色像移動一樣。 在子圖a中,兩個騎車者來自車輛的相反方向,並且行人在與車輛相同的方向上移動,並且所有三個都被很好地檢測為移動。 還檢測到玻璃窗中移動的汽車的陰影。 在子圖b中,已經檢測到所有移動的行人,但是地面上的誤報是由MOF誤差引起的。   運動分割 可能性閾值可以應用於運動似然影象,以便區分移動和靜態畫素。 然而,由於不完美的MOF,檢測噪聲可能遍及該過程。 圖(3)顯示了使用不同閾值的一些檢測結果。 例如,無論使用哪個閾值,幀16(子圖3a)處的運動可能性估計都是良好的並且已經很好地檢測到所有運動物件。 儘管在幀535(子圖3b)處的運動似然也被很好地估計,但由於光流的粗略估計,它仍然在靜態物體的邊緣上有噪聲。 較低的閾值導致較高的真陽性和較高假陽性; 相反,較高的閾值可能導致較差的檢測率。 無法確定適合所有情況的最佳閾值。   文中使用了 Graph-Cut for Motion Segmentation (沒有具體看)具體效果如下   邊界框生成   應在每個移動物體周圍生成邊界框。 另外,還應該消除一些錯誤檢測的畫素(例如,陰影)。 在我們的方法中,我們主要關注車輛前方30米(縱向),20米(橫向)和3米(高度)的立方體檢測空間。 在該有限子空間中,通過將所有檢測到的3D移動點投影到xOz平面上來構建密度圖。 密度圖與累積緩衝區相關聯。 累積緩衝區中的單元在xOz平面上覆蓋50cm×50cm的區域。      基於U-Disparity Map的ROI生成 在每個聚類中,可以為下一個識別步驟的每個移動物件生成邊界框。 區域增長用於去除冗餘並使用密集視差圖整合部分檢測。 U-V視差圖[34,35]是經典視差圖的兩個變體,通常用於道路和障礙物檢測。 U視差圖具有與原始影象相同的寬度,其通過記錄沿每個影象列共享相同視差值的畫素的數量而形成。 在U視差圖中,由於相似的視差值,直立物件將形成水平線。 相反,每條白色水平線代表相應的直立物體。 該資訊可以有效地用於確定物件的寬度。 在獲得邊界框的寬度之後,基於視差值將區域增長[36]應用於聚類組畫素的鄰域。 視差值在每個簇的最小和最大視差值之間的畫素被認為屬於同一物件。 最終的界限移動物體的框顯示在5b-(e)中。 基於V-Disparity Map的聚類減少       在本文中,已經提出了一種從兩個連續立體幀中檢測運動物體的方法。通過用於獲得每個畫素的運動似然的一階誤差傳播模型來估計自我運動不確定性。具有高運動可能性和類似深度的畫素被檢測為基於圖形切割運動分割方法的移動。另外,基於分割結果,可以快速識別移動物體。幾個不同的真實視訊序列中的檢測結果表明,我們提出的演算法在全域性(相機運動)和區域性(光流)噪聲方面是穩健的。此外,我們的方法適用於所有影象畫素,並且可以檢測任意移動的物件(包括部分遮擋)。如果沒有任何跟蹤策略,我們的檢測方法可以提供高召回率,並且在幾個公共序列中也表現出可接受的精確率。然而,所提出的方法的計算複雜性是一個重要的問題。這主要是由於計算每個影象畫素的運動似然和使用圖切演算法的分割。基於GPU的演算法可用於克服這一弱點[42]。此外,MOD的效能高度依賴於密集光流和視差圖的結果。然而,他們在複雜動態環境(包括其他移動物體)中的估計通常變得非常困難。 視訊 https://youtu.be/mfSJnCoyLxc  

有興趣的小夥伴可以關注微信公眾號,加入QQ或者微信群,和大家一起交流分享吧(該群主要是與點雲三維視覺相關的交流分享群,歡迎大家加入並分享)