接下來就是我要介紹的論文 Zhou D, Frémont V, Quost B, et al. Moving Object Detection and Segmentation in Urban Environments from a Moving Platform ☆[J]. Image & Vision Computing, 2017, 68.   這是一篇2017 的論文,發表在HAL,HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientifc research documents
  文章摘要: This paper proposes an effective approach to detect and segment moving objects from two time-consecutive stereo frames, which leverages the uncertainties in camera motion estimation and in disparity computation. First, the relative camera motion and its uncertainty are computed by tracking and matching sparse features in four images(是雙目相機). Then, the motion likelihood at each pixel is estimated by taking into account the ego-motion uncertainty and disparity in computation procedure. Finally, the motion likelihood, color and depth cues are combined in the graph-cut framework for moving object segmentation. The efficiency of the proposed method is evaluated on the KITTI benchmarking datasets, and our experiments show that the proposed approach is robust against both global (camera motion) and local (optical flow) noise. Moreover, the approach is dense as it applies to all pixels in an image, and even partially occluded moving objects can be detected successfully. Without dedicated tracking strategy, our approach achieves high recall and comparable precision on the KITTI benchmarking sequences.
  文章提出了一種基於雙目視覺中時間連續兩幀中檢測和分割出運動物體的有效方法,該方法利用了相機運動估計和視差計算中的不確定性。   首先,通過跟蹤和匹配四個影象中的稀疏特徵來計算相對相機運動及其不確定性。然後,將每個畫素處的運動似然考慮到自車運動的不確定性和視察估計中。最後,將運動似然,顏色和深度資訊,組合在用於運動物件分割的圖形切割框架中。在KITTI基準資料集上評估了所提方法的效率,並且我們的實驗表明,所提出的方法對全域性(相機運動)和區域性(光流)噪聲具有魯棒性。此外,該方法是密集的,因為它適用於影象中的所有畫素,並且甚至可以成功地檢測到部分遮擋的移動物件。如果沒有專門的跟蹤策略,我們的方法可以在KITTI基準測試序列上實現高召回率和可比較的精確度。
  介紹 Making the vehicles to automatically perceive and understand their 3D environment is a  challenging and important task,Due to the improvement of the sensor tech- nologies, processing techniques and researchers’ contributions, several Advanced Driver Assistance Systems (ADASs) have been developed for various purposes such as forward collision warning systems, parking assist systems, blind spot detection systems and adaptive cruise control systems     文中說到科研人員一直以來都在挑戰的一個任務,就是使車輛能夠感知和理解這個3D環境,,當然隨著感測器技術的不斷進步以及研究者們的貢獻,ADAS有了很大的進展,並舉例有碰撞報警,泊車輔助,盲區檢測,以及自適應巡航系統。   當前更為流行的比如SLAM和SFM系統都很好的應用在ADAS系統以及自動駕駛中,比如比較常用且流行的ORB-SLAM R. Mur-Artal, J. Montiel, and J. D. Tardos, \Orb-slam: a versatile and accu-rate monocular slam system," Robotics, IEEE Transactions on, vol. 31, no. 5,600 pp. 1147{1163, 2015.   但是呢,這些系統都假設是靜態的環境,他們必須要面對一些複雜的城市環境和動態的物體,因此,有效且有效地檢測移動物體對於這種系統的準確性來說是一個至關重要的問題。 moving objects are considered as outliers and RANSAC strategy is applied to get rid of them efficiently. However, this strategy will fail when the moving objects are the dominant part of the image. Thus, efficiently and effectively detecting moving objects turns out  to be a crucial issue for the accuracy of such systems.     In this article, we focus on the specific problem of moving object detection. We propose a detection and segmentation system based on two time-consecutive stereo images. The key idea is to detect the moving pixels by compensating the image changes caused by the global camera motion. The uncertainty of the camera motion is also considered to obtain reliable detection results. Furthermore, color and depth information is also employed to remove some false detection   此文章 重點解決移動物件檢測的具體問題。 提出了一種基於時間連續立體影象的兩幀影象移動物體的檢測和分割系統。 關鍵思想是通過補償由全域性相機運動引起的影象變化來檢測運動畫素。 攝像機運動的不確定性也被認為是獲得可靠的檢測結果。 此外,還使用顏色和深度資訊來消除一些錯誤檢測!!!(什麼是通過補償相機的全域性運動引起的影象變換來檢測相機運動)   移動物體檢測一直以來都是研究的熱點,其中背景減除法是最常用的一種物體檢測方法。說了一些單目視覺上的移動物體檢測方法,主要還是上面介紹的那些方法。 但是本文使用的雙目,相比於單目攝像頭,雙目(stereo vision system SVS)提供了深度資訊和視差資訊。   Dense or sparse depth/disparity maps computed by global [10] or semi-global [11] matching approaches can be used to build 3D information on the environment. Theoretically, by obtaining the 3D information, any kind of motion can be detected, even the case of degenerate motion mentioned above. In [12], 3D point clouds are reconstructed from linear stereo vision systems first and then objects are detected based on a spectral clustering technique from the 3D points. Common used methods for Moving Object Detection (MOD) in stereo rig can be divided into sparse feature based [13, 14] and dense scene flow-based approaches [15, 16, 17]   通過全域性[10]或半全域性[11]匹配方法計算的密集或稀疏深度/視差圖可用於重構環境的3D資訊。 理論上,通過獲得3D資訊,即使是在自車運動退化的情況,也可以檢測任何型別的運動。 在[12]中,首先從線性立體視覺系統重建3D點雲,然後基於來自3D點的光譜聚類技術檢測物體。 在立體相機中用於運動物體檢測(MOD)的常用方法可以分為基於稀疏特徵的[13,14]和基於密集場景流的方法[15,16,17]。   [10]L. Wang and R. Yang, \Global stereo matching leveraged by sparse ground control points," in Computer Vision and Pattern Recognition (CVPR), Conference on, pp. 3033{3040, IEEE, 2011. [11] H. Hirschmuller, \Accurate and efficient stereo processing by semi-global matching and mutual information," in Computer Vision and Pattern Recognition, IEEE Computer Society Conference on, vol. 2, pp. 807{814, 2005. [12] S. Moqqaddem, Y. Ruichek, R. Touahni, and A. Sbihi, \Objects detection and tracking using points cloud reconstructed from linear stereo vision," Current Advancements in Stereo Vision, p. 161, 2012. [13] B. Kitt, B. Ranft, and H. Lategahn, \Detection and tracking of independently moving objects in urban environments," in Intelligent Transportation Systems, 13th International IEEE Conference on, pp. 1396{1401, IEEE, 2010. [14] P. Lenz, J. Ziegler, A. Geiger, and M. Roser, \Sparse scene flow segmentation for moving object detection in urban environments," in Intelligent Vehicles Symposium (IV),IEEE, pp. 926{932, 2011. [15] A. Talukder and L. Matthies, \Real-time detection of moving objects from moving vehicles using dense stereo and optical flow," in Intelligent Robots and Systems, Proceedings. International Conference on, vol. 4, pp. 3718{3725, IEEE, 2004.  [16] V. Romero-Cano and J. I. Nieto, \Stereo-based motion detection and tracking from a moving platform," in Intelligent Vehicles Symposium, IEEE, pp. 499 IEEE, 2013.  [17] C. Rabe, T. M¨uller, A. Wedel, and U. Franke, \Dense, robust, and accurate motion field estimation from stereo image sequences in real-time," in European conference on computer vision, pp. 582{595, Springer, 2010   當在移動物體物件上檢測到很少的特徵時,基於稀疏特徵的方法就會失敗。 此時,可以使用基於密集光流的方法。 在[15]中,基於當前場景深度和自我運動,預測和計算兩個連續幀之間的光流。從預測的光流場和測量得到的光流場之間的差異,較大的非零區域被分類為潛在的移動物體。 儘管該運動檢測方案提供了密集的結果,但是由於感知任務中涉及的噪聲,系統可能易於產生大量的誤檢測。 通過考慮3D場景流[18]或2D真實光流[16]的不確定性,已經開發了其他改進方法[18]和[16]來限制誤檢測。 然而,這些方法粗略地模擬了從其他感測器比如 (GPS or IMU)獲得的自我運動的不確定性。   使用來自單目相機的對極幾何結構不能在其運動退化時檢測移動物體。(退化的解釋:3D點沿著由兩個相機中心和點本身形成的極線平面移動,而其2D投影沿著極線移動。)   假設已經標定好的雙目相機,We denote b as the calibrated baseline for the stereo head. Additionally, the left and right rectified images have identical focal length f and principal point coordinates as p0 = (u0; v0)T.   下圖給出了兩幀連續的從t-1到t時刻的雙目相機影象。假設世界座標系的原點在時間t-1與左攝像機的區域性座標系重合。 the X-axis points to the right and the Y -axis points downwards  (X軸方向向右,Y軸向下)   在t-1時刻,從靜態背景點提取的畫素的位置是  在t時刻獲取的位置是   其中K是相機的內在引數矩陣,R,tr是相對相機旋轉和平移(姿勢),Zt-1代表t-1中幀中3D點X的深度。 為了檢測影象中的運動物體,一個直截了當的想法是通過方程式補償相機運動。根據公式                (1) 然後,殘差影象被計算為在運動中補償的當前和先前的差值,突出顯示屬於運動物件的畫素和與運動誤差估計有關的畫素。 為了清楚起見,我們首先定義三種不同的基於流的表示式: 全域性影象運動光流( Global Image Motion Flow  GIMF)表示僅由相機運動引起的預測影象變化,可以使用等式(1)計算   測量光流( Measured Optical Flow MOF)表示使用影象處理技術估計的實際密集光流[23]。 C. Liu, Beyond pixels: exploring new representations and applications for motion analysis. PhD thesis, Massachusetts Institute of Technology, 2009.   殘餘影象運動光流( Residual Image Motion Flow RIMF)用於測量MOF和GIMF之間的差異   RIMF可用於區分該畫素是否和移動和非移動物體相關的畫素。 為了計算RIMF,應首先計算MOF和GIMF。 注意計算後者需要關於相機運動(自我運動)和畫素深度值的資訊。文中沒有說明計算密集光流[23]和視差圖[24]的問題: [23] C. Liu, Beyond pixels: exploring new representations and applications for motion analysis. PhD thesis, Massachusetts Institute of Technology, 2009. [24] A. Geiger, M. Roser, and R. Urtasun, \Efficient large-scale stereo matching,"in Asian Conference on Computer Vision, pp. 25{38, Springer, 2010 [25]C. Vogel, K. Schindler, and S. Roth, \3d scene flow estimation with a piecewise rigid scene model," International Journal of Computer Vision, vol. 115, no. 1, pp. 1{28, 2015.  更確切地說,我們利用[25]中提出的方法來計算密集光流和密集視差圖。 然後我們直接將它們用作我們系統的輸入。 整個系統可以通過以下三個步驟進行總結: 1. Moving Pixel Detection 移動畫素檢測。 在該步驟中,通過補償由相機運動引起的影象變化來檢測運動畫素。 為了改善檢測結果,考慮了相機運動的不確定性。 2. Moving object segmentation移動物件分割。 在移動畫素檢測之後,使用基於圖形切割的演算法通過考慮顏色和視差資訊來移除錯誤檢測。 3. Bounding box generation.邊界框生成。 最後,通過使用UV視差圖分析為每個移動物體生成邊界框                                                                          圖1 雙目視覺下的座標系                          圖2    Framework of the moving object detection and segmentation system   紅色部分用於計算每個畫素的運動似然。 藍色部分是基於圖形切割的運動物件分割。 綠色部分是為每個移動物件生成邊界框的後處理。  
首先介紹Moving Pixel Detection 移動畫素檢測 從圖1雙目連續兩幀的四個影象來看,在t-1時刻和t時刻的影象,在t-1時刻左影象I_(t-1,L)被當做是參考影象,以下是定義   接著是自車運動估計和不確定性計算        給定兩個連續幀的四個影象中的一組對應點,可以通過使用非線性最小化方法最小化重投影誤差的總和來估計相機的相對姿態。        首先,重建前一幀的3D特徵點。通過三角測量和使用相機內在引數。 然後使用如下的相機運動將這些3D點重新投影到當前幀的影象上、                                       (2) 其中



在第之前的章節中,已經提出RIMF來檢測移動畫素。 為了計算RIMF,應首先估算GIMF。 此外,RIMF的不確定性也可以根據自我運動和視差圖不確定性來計算。 Global Image Motion Flow (GIMF)怎麼計算呢?   GIMF用於表示由相機運動引起的

