1. 程式人生 > >綜述自動駕駛中的計算機視覺Computer Vision for Autonomous Vehicles: Problems, Datasets and State-of-the-Art(上)

綜述自動駕駛中的計算機視覺Computer Vision for Autonomous Vehicles: Problems, Datasets and State-of-the-Art(上)

17年CVPR上的一篇關於自動駕駛和計算機視覺的綜述,比較全面,大體整理一個提綱,重點關注比較新的研究成果,側重於深度學習方面的。

1. History of Autonomous Driving 自動駕駛的歷史

這一部分介紹了自動駕駛的專案和自動駕駛的比賽,包括比較出名的Google waymo,NVIDIA的Dave2,DARPA等,瞭解一下。

1.1 Autonomous Driving Projects 自動駕駛專案

  • PROMETHEUS 1986
  • Navlab 1988
  • VisLab及其衍生專案
    10年之後
  • PROUD 2010
  • V-charge an electric automated car outfitted with close-to-market sensors
  • Google Waymo 2009至今
  • Tesla Autopilot
  • Nvidia DAVE2

Long Distance Test Demonstrations

1.2 Autonomous Driving Competitions 自動駕駛比賽

  • ELROB The European Land Robot Trial
  • DARPA 2004 American Defense Advanced Research Projects Agency
    04年的比賽 100萬美元獎金,從加州到內華達州共150英里的路程,並沒有隊伍完成比賽。05年改變了路線。09年DARPA的的第三次比賽,Urban Challenge, 96km的城市道路路程,要求車輛在negotiating with other vehicles and merging into traffic時遵守一定的交通規則。
  • GCDC The Grand Cooperative Driving Challenge
    During the competition, teams had to negotiate convoys, join convoys
    and lead convoys. The winner was selected based on a system that assigned points to randomly mixed teams.

2. Datasets & Benchmarks 資料集和評價基準

這一部分主要講資料集和評價指標,包括真實場景的資料集和模擬的資料集。真實場景的資料集又主要包括關於stereo和3d重建的,光流的,目標識別和分割的,跟蹤的,航拍圖的,作者還總結了更側重於自動駕駛的(我的理解是以車輛的視角採集的資料集)幾個資料集以及長距離的資料集。模擬資料集也列舉了一個例子,可以大致分為從動畫電影衍生出來的資料集和基於遊戲引擎的資料集。

2.1 Real-World Datasets 真實場景資料集

Stereo and 3D Reconstrution 立體和3D重建

Optical Flow 光流

Object Recognition and Segmentation 目標識別和分割

  • ImageNet 2009
  • PASCAL VOC 2010
    目標分類,目標檢測,目標分割,行為識別
  • Microsoft COCO 2014
    目標檢測,例項分割,上下文推理
    91類,250萬標註的例項,32萬8千張圖。
  • Cityscapes 2016
  • TorontoCity 2016

Tracking 跟蹤

  • MOTChallenge 多目標跟蹤 14個視訊序列,使用靜止或運動相機拍攝的 https://motchallenge.net/,提供三類物體的標註:運動或靜止的行人,不處於直立狀態的人和其他。
  • PETS
  • KITTI
    評價指標
    MOTA:Multiple Object Tracking Accuracy
    MOTP:Multiple Object Tracking Precision

Aerial Image Datasets 航拍資料集

  • ISPRS http://www2.isprs.org/commissions/comm3/wg4/tests.html
    提供了機載感測器獲取的城市目標檢測和3D建築重建和分割的資料。
    包括兩個資料集:Vaihingen和Downtown Toronto。目標檢測的類別有:建築物,道路,樹木,地面,汽車。

Autonomous Driving 自動駕駛

  • KITTI
    stereo,光流,視覺里程計/SLAM,3D 目標檢測。 使用高解析度彩色和灰度雙目相機,Velodyne 3D 鐳射雷達,GPS/IMU慣性導航系統採集的6個小時資料。
    stereo和光流:194對影象用於訓練,195對影象用於測試(1280*376),ground truth是用3D鐳射點雲投影到影象上得到的。2015年 Menze & Geiger標註了400個動態場景,又將stereo和光流相結合,生成了一個3D scene flow benchmark。
    視覺里程計/SLAM:22個stereo序列,39.2km長,使用了GPS/IMU和RTK(Real - time kinematic,實時動態)載波相位差分技術生成ground truth。
    目標檢測:7481張影象用於訓練,7518張影象用於測試。有機動車,行人和騎行者檢測。和paskal voc一樣,使用IOU(intersection-over-union)作為評價指標。
    道路車車道線檢測:13年擴充套件了資料集,600張訓練和測試影象用於道路和車道線檢測。16年又有人使用航拍圖對停車場,人行道和車道線的數目和位置進行了細粒度的分割。

  • HCI http://hci-benchmark.org
    28504對影象,stereo和光流的ground truth。2016年

  • Cityscapes 2016 https://www.cityscapes-dataset.com/
    街景語義分割,畫素級別和例項級別的語義分割資料集。畫素級別的分割有5000張精細標註的影象和2000張粗糙標註的影象。
  • TorontoCity 2016 覆蓋了多倫多地區712平方公里,8439km道路里程和40萬建築物。標註:建築物高度估計(重建),道路中心線,curb(應該是馬路牙)提取,建築物例項分割,建築物輪廓提取,語義標籤和場景型別分類。資料是通過飛機,無人機和道路上行駛的車輛共同採集的。

Long-Term Autonomy 長期的autonomy 長期自控?

大部分資料集都重點關注於演算法的完備,並沒有重點關注長距離資料集的生成。
- Oxford RobotCar 1000km,有影象,LiDAR和GPS資料。

2.2 Synthetic Data 模擬資料

MPI Sintel

Flying Chairs and Flying Things

含三個部分:FlyingThings3D, Monkaa, Driving.FlyingThings3D。在隨機生成的場景中提供每天飛行的3D 目標(3D軌跡隨機)

Game Engines 遊戲引擎

從動畫電影衍生出來的資料十分有限,內容很難改變,很少有電影開源。遊戲引擎可以用來產生無限量的資料。
- Virtual KITTI http://www.xrce.xerox.com/Research-Development/
Computer-Vision/Proxy-Virtual-Worlds
2016
包含了35段模擬視訊,17000幀高解析度影象。提供了目標檢測,跟蹤,場景和例項分割,深度和光流的ground truth。
- SYNTHIA http://synthia-dataset.net/ 2016 城市環境語義分割資料集,13400張隨機選取的影象,4段視訊共計20萬幀左右。提供13類畫素界別的語義標註。
- GTA
Richter, S. R., Vineet, V., Roth, S., & Koltun, V. (2016). Playing for data:
Ground truth from computer games. In Proc. of the European Conf. on
Computer Vision (ECCV). 這篇論文 提取了GTA中的影象的精確到畫素的語義標籤地圖,並且開發了一個wrapper包裝器,從電腦遊戲模擬出的25000張
影象中生成稠密的語義標註。
- Unrealcv
Qiu, W., & Yuille, A. L. (2016). Unrealcv: Connecting computer vision to
unreal engine. arXiv.org, 1609.01326 提供了一套模擬的開源工具。

3. Cameras Models & Calibration 相機模型和標定

這一部分講相機模型和標定,暫不展開。

3.1 Calibration

3.2 Omnidirectional Cameras

Applications

3.3 Event Cameras

Lifetime Estimation

4. Representations 表現形式/表徵

暫時也不關注。

Superpixels 超畫素

Stixels 棒狀畫素?

3D Primitives

5. Object Detection 目標檢測

這一部分主要講目標檢測,城市道路中的目標檢測對於自動駕駛車輛的避障等十分重要。主要從感測器

Sensors 感測器

  • 相機 最便宜最常見
  • VS visible spectrum 主要用於日間,infrared spectrum用於夜間
  • TIR thermal infrared camera熱紅外相機 warm objects:行人等,cold objects:樹木或道路
    以上屬於被動感測器
    主動active sensors比如說
  • laser scanners
    不同的感測器會受到不同的條件干擾

Standard Pipeline 標準流水線

一套傳統的檢測方法包括這幾個步驟:預處理,感興趣區域ROI的踢下去,目標分類,確認/改善 verification/refinement。預處理階段需要相機標定和影象校正。感興趣區域的檢測,傳統上,常用滑動視窗方法。

Classifications 分類

因為傳統方法基於滑動視窗方法,將所有的這些區域進行分類的計算開銷是很大的,所以過去十幾年有一些高效的分類方法的研究成果。比如說AdaBoost,SVM結合HOG特徵,深度學習出現之後,
Sermanet, P., Kavukcuoglu, K., Chintala, S., & LeCun, Y. (2013). Pedestrian detection with unsupervised multi-stage feature learning. In Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR)比如說這篇文章,使用了無監督的卷積稀疏自動編碼器來預訓練特徵,使用端到端的有監督學習在finetune特徵的時候訓練分類器。

Part-based Approaches 基於part的方法

  • Deformable Part Model(DPM)
  • Implicit Shape Model

5.1 2D Object Detection 2D目標檢測

在2D目標檢測方面,kitti資料集和Caltech-USA資料集相對來說較為權威,在KITTI的benchmark中,目標檢測分為三類:汽車,行人,騎車者。
這一部分現在還是用深度學習做的比較多,從R-CNN,spp-Net,Fast R-CNN,到Faster R-CNN,再到YOLO和SSD。

5.2 3D Object Detection from 2D Images 基於2D影象進行3D目標檢測

物體類別的幾何3D表示可以比2D或3D的bounding box包含更多的資訊,現在有一些關於3D CAD模型的研究,不過效果還達不到與使用2Dbounding box的方法同樣的效果。

5.3 3D Object Detection from 3D Point Clouds 基於3D點雲進行3D目標檢測

KITTI資料集提供了相機和LiDAR的同步資料,來比較基於影象的方法和基於LiDAR的方法的效果。鐳射雷達可以直接得到精確的3D資訊,簡化目標候選的提取,但是鐳射雷達採集到的3D資料往往比較稀疏,解析度不足。所以目前基於鐳射雷達的目標檢測方法還不能達到跟基於影象的方法一樣的效果。

不太關注雷達,暫不展開。

5.4 Person Detection 行人檢測

真實環境中行人的檢測是十分重要的,而且人的行為並不像車的行為那樣可以預測,並且因為人的穿著和姿態的各異,使得行人檢測更為困難。

Pedestrian Protection Systems 行人保護系統

Geronimo, D., Lopez, A. M., Sappa, A. D., & Graf, T. (2010). Survey on
pedestrian detection for advanced driver assistance systems. IEEE Trans. on Vision and Pattern Recognition (CVPR).

Surveys

單目行人檢測的話,HOG結合SVM在高解析度情況下效果好,AdaBoost在低解析度情況下效果好。
近幾年使用CNN的方法

  • Xiang, Y., Choi, W., Lin, Y., & Savarese, S. (2016). Subcategory-aware convolutional neural networks for object proposals and detection. arXiv.org, 1604.04693.
  • Cai, Z., Fan, Q., Feris, R. S., & Vasconcelos, N. (2016). A unified multi-scale deep convolutional neural network for fast object detection. In Proc. of the European Conf. on Computer Vision (ECCV).
  • Zhu, Y., Wang, J., Zhao, C., Guo, H., & Lu, H. (2016). Scale-adaptive deconvolutional regression network for pedestrian detection. In Proc. of the Asian Conf. on Computer Vision (ACCV).
  • Chen, X., Kundu, K., Zhu, Y., Berneshawi, A. G., Ma, H., Fidler, S., & Urtasun, R. (2015c). 3d object proposals for accurate object class detection. In Advances in Neural Information Processing Systems (NIPS).
  • Yang, F., Choi, W., & Lin, Y. (2016). Exploit all the layers: Fast and accurate CNN object detector with scale dependent pooling and cascaded rejection classifiers. In Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR).
  • Ren, S., He, K., Girshick, R. B., & Sun, J. (2015). Faster R-CNN: towards real-time object detection with region proposal networks. In Advances in Neural Information Processing Systems (NIPS).

Temporal Cues

利用一下視訊序列中的物體運動的時間資訊

Scarcity of Target Class 目標類別的稀缺

可以使用學習生成模型來建立合成虛擬樣本來提高判別模型的效能。

Real-time Pedestrian Detection 實時行人檢測

Benenson, R., Mathias, M., Timofte, R., & Gool, L. J. V. (2012).Pedestrian
detection at 100 frames per second. In Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR).
12年的時候已經有100幀的檢測成果

5.5 Human Pose Estimation 人體姿態估計

人的姿態估計是非常重要的,但是它的難點在於姿態空間是非常龐大的,並且通常人距離車比較遠,所以觀測到的人解析度比較低。
一種比較典型的兩步走方法:首先檢測身體部分,然後進行姿態估計。比如
Gkioxari, G., Hariharan, B., Girshick, R., & Malik, J. (2014). Using k-poselets for detecting people and localizing their keypoints. In Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR).

DeepCut
Pishchulin, L., Insafutdinov, E., Tang, S., Andres, B., Andriluka, M., Gehler,P. V., & Schiele, B. (2016). Deepcut: Joint subset partition and labeling for multi person pose estimation. In Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR).
可以估計一幅影象中所有人的姿態。

SMPL
Loper, M., Mahmood, N., Romero, J., Pons-Moll, G., & Black, M. J. (2015). SMPL: A skinned multi-person linear model. ACM Trans. on Graphics (SIGGRAPH),

Bogo, F., Kanazawa, A., Lassner, C., Gehler, P. V., Romero, J., & Black, M. J. (2016). Keep it SMPL: automatic estimation of 3d human pose and shape from a single image. In Proc. of the European Conf. on Computer Vision (ECCV).
使用了DeepCut來估計人體的3D的姿態和3D的形狀。

5.6 Discussion 討論

目前目標檢測在高解析度和少遮擋的情況下,效果是比較不錯的。車輛檢測效果已經很不錯(kitti),行人和騎行者的效果還有待提升。主要原因是因為訓練樣本有限.以及騎行者和行人要通過上下文和語義才能看出不同。
不過目標檢測最主要的問題還是小目標的檢測以及高度遮擋物體的檢測。