1. 程式人生 > >行人檢測資料整理

行人檢測資料整理

行人檢測具有極其廣泛的應用:智慧輔助駕駛,智慧監控,行人分析以及智慧機器人等領域。從2005年以來行人檢測進入了一個快速的發展階段,但是也存在很多問題還有待解決,個人覺得主要還是在效能和速度方面還不能達到一個權衡。

1.行人檢測的現狀(大概可以分為兩類)

(1).基於背景建模:利用背景建模方法,提取出前景運動的目標,在目標區域內進行特徵提取,然後利用分類器進行分類,判斷是否包含行人;

背景建模目前主要存在的問題:(背景建模的方法總結可以參考我的前一篇博文介紹)(前景目標檢測總結)

必須適應環境的變化(比如光照的變化造成影象色度的變化);
相機抖動引起畫面的抖動(比如手持相機拍照時候的移動);
影象中密集出現的物體(比如樹葉或樹幹等密集出現的物體,要正確的檢測出來);
必須能夠正確的檢測出背景物體的改變(比如新停下的車必須及時的歸為背景物體,而有靜止開始移動的物體也需要及時的檢測出來)。
物體檢測中往往會出現Ghost區域,Ghost區域也就是指當一個原本靜止的物體開始運動,背靜差檢測演算法可能會將原來該物體所覆蓋的區域錯誤的檢測為運動的,這塊區域就成為Ghost,當然原來運動的物體變為靜止的也會引入Ghost區域,Ghost區域在檢測中必須被儘快的消除。
(2).基於統計學習的方法:這也是目前行人檢測最常用的方法,根據大量的樣本構建行人檢測分類器。提取的特徵主要有目標的灰度、邊緣、紋理、顏色、梯度直方圖等資訊。分類器主要包括神經網路、SVM、adaboost以及現在被計算機視覺視為寵兒的深度學習。

統計學習目前存在的難點:

(a)行人的姿態、服飾各不相同、複雜的背景、不同的行人尺度以及不同的關照環境。

(b)提取的特徵在特徵空間中的分佈不夠緊湊;

(c)分類器的效能受訓練樣本的影響較大;

(d)離線訓練時的負樣本無法涵蓋所有真實應用場景的情況;

目前的行人檢測基本上都是基於法國研究人員Dalal在2005的CVPR發表的HOG+SVM的行人檢測演算法(Histograms of Oriented Gradients for Human Detection, Navneet Dalel,Bill Triggs, CVPR2005)。HOG+SVM作為經典演算法也別集成到opencv裡面去了,可以直接呼叫實現行人檢測

為了解決速度問題可以採用背景差分法的統計學習行人檢測,前提是背景建模的方法足夠有效(即效果好速度快),目前獲得比較好的檢測效果的方法通常採用多特徵融合的方法以及級聯分類器。(常用的特徵有Harry-like、Hog特徵、LBP特徵、Edgelet特徵、CSS特徵、COV特徵、積分通道特徵以及CENTRIST特徵。

行人檢測在計算機視覺領域的許多應用中起著至關重要的作用,例如視訊監控、汽車駕駛員輔助系統、人體的運動捕捉系統等.影象的行人檢測方法可以分成兩大類:輪廓匹配和表觀特徵.表觀特徵又被定義成影象特徵空間(也叫做描述運算元),它可以分為整體法、區域性法、特徵點對法.

在整體法中,Papageorgiou和Poggio[1]提出了Haar小波(HWs)特徵,並用SVM訓練行人,其中包括了行人的正面和背面.Viola和Jones[2, 3]採用級聯AdaBoost學習演算法(即選擇超過一定閾值的弱分類器組成強分類器的演算法)提取基本Haar-like特徵和擴充套件的兩個Haar-like特徵,用於視訊監控的行人檢測.Levi和Weiss[4]則提出邊緣方向直方圖(edge orientation histograms,簡稱EOHs)進行人臉檢測.EOHs先計算影象梯度強度,然後按梯度方向等分成K個區間,而特徵的表示是通過方向間的統計比得到的一個實數值.Haar-like和EOHs都可以通過影象積分圖方法加快運算速度.

Dalal和Triggs等人[5]提出了梯度方向直方圖特徵(histogram of oriented gradient,簡稱HOG).HOG基於梯度資訊並允許塊間相互重疊,因此對光照變化和偏移不敏感,能有效地刻畫人體的邊緣特徵.然而,HOG也有其缺點:特徵維度高,大量的重疊和直方圖統計,使得特徵的計算速度慢,進而影響實時性;遮擋處理能力較差;未利用顏色、形狀和紋理等特徵.針對這些缺點,近年來一些研究者提出了更多[6, 7, 8, 9]的行人特徵,有COV,Integral Channel Feature,ACF,GGP等.

Chen等人[10]提出韋伯特徵(Weber local descriptor,簡稱WLD).WLD由兩部分組成:激勵(differential excitation)和方向(orientation),其充分利用人類視覺機制韋伯定理,對明暗變化和噪聲干擾有一定的魯棒性,缺點是方向部分計算複雜.

區域性法的主要思想是將人體看成是部位的組合,該方法要解決兩個問題:構造有效的部位檢測器和建模部位間的幾何關係.Mohan等人[11]將人體劃分為頭、下半身、左右胳膊這4個部位,取各個部位分類器的響應值作為支援向量機的輸入,構建一個組合的多層次分類器來檢測行人.

Edgelet特徵描述的是人體的輪廓特徵,但是它描述的是人體區域性輪廓的特徵,包括的形狀有直線、弧線等.它將人體分為幾個部分來訓練,比如全身、頭肩部、腿部和軀幹部等,每個部分都使用adaboost演算法訓練一個強分類器;在分類時,利用4個部分的聯合概率進行決策.該演算法採用的是人體的區域性特徵,所以在出現遮擋的情況下仍然有很好的表現,缺點是特徵的計算比較複雜.

Wu[12]提取影象的edgelet特徵用於檢測靜態影象中的人體,對組成人體的各個部分分別建立模型,每一個edgelet描述人體的某個部位的輪廓,然後再用adaboost演算法篩選出最有效的一組edgelet來描述人的整體.

Wu定義了3種edgelet,包括直線型、弧形和對稱型.每一個edgelet由一組邊緣點構成,是一條具有一定形狀和位置的線段.對於影象中任意的位置,根據該位置是否具有和某edgelet形狀相似的邊緣得到一個響應值.如果邊緣的形狀與edgelet越相似,那麼響應值就越高.

這類方法分別檢測視窗的區域性區域,然後再綜合這些區域的檢測結果來做最終的判決.優點在於能更好地處理遮擋以及行人姿勢的多樣性,主要問題在於如何定義區域性以及如何整合來自多個部位檢測器的資訊.

特徵點對法是將行人檢測問題視為一個廣義的霍夫變換:首先,通過區域性特徵檢測器來尋找關鍵點;然後,在關鍵點的周圍選取一個固定大小的影象塊,通過聚類、隨機森林或者最大間隔等方法建立影象塊的空間分佈模式;最後,通過霍夫投票方式尋找影象中的行人位置.典型的方法是David Lowe提出的SIFT特徵[13].

無論是整體、區域性還是特徵點對法,核心的問題是如何有效表示行人的整體特徵、部位特徵或者區域性塊特徵.方向梯度直方圖特徵是目前廣泛使用的行人特徵表示,但是方向梯度無法刻畫人眼視覺敏感度,資訊冗餘度大.本文針對這一缺點,在中心變換直方圖[14]特徵(census transform histogram,簡稱CENTRIST)的基礎上,提出一種顯著性紋理結構特徵,與CENTRIST類似於區域性二值模式直方圖不同,該特徵融合了人眼視覺的心理物理學規律,能更好地實現光照波動、背景雜亂等道路環境下的行人檢測.

[1] Papageorgiou C, Poggio T. A trainable system for object detection. Int’l Journal of Computer Vision, 2000,38(1):15-33 .

[2] Viola P, Jones MJ, Snow D. Detecting pedestrians using patterns of motion and appearance. In: Proc. of the Int’l Conf. on Computer Vision. 2003. 734-741 .

[3] Jones MJ, Snow D. Pedestrian detection using boosted features over many frames. In: Proc. of the IEEE Conf. Computer Vision and Pattern Recognition. 2008. 1-4 .

[4] Levi K, Weiss Y. Learning object detection from a small number of examples: The importance of good features. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2004.53-60 .

[5] Dalal N, Triggs B. Histograms of oriented gradients for human detection. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2005.886-893 .

[6] Tuzel O, Porikli F, Meer P. Pedestrian detection via classification on riemannian manifolds. IEEE Trans. on PAMI, 2008,30(10): 1713-1727 .

[7] Dollar P, Tu Z, Perona P, Belongie S. Integral channel features. In: Proc. of the British Machine Vision Conf. 2009. 1-11.

[8] Gao W, Ai H, Lao S. Adaptive contour features in oriented granular space for human detection and segmentation. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2009. 1786-1793 .

[9] Liu YZ, Shan SG, Zhang WC, Chen XL, Gao W. Granularity-Tunable gradients partition (GGP) descriptors for human detection. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2009.1255-1262 .

[10] Chen J, Shan SG, He C, Zhao GY. WLD: A robust local image descriptor. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2010, 32(9):1705-1720 .

[11] Mohan A, Papageorgiou C, Poggio T. Example-Based object detection in images by components. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2001,23(4):349-361

[12] Wu B, Nevatia R, Li Y. Segmentation of multiple, partially occluded objects by grouping, merging, assigning part detection responses. Int’l Journal of Computer Vision, 2009,82:185-204 .

[13] Lowe DG. Distinctive image features from scale-invariant keypoints. Int’l Journal of Computer Vision, 2004,60(2):91-l10 .

[14] Wu JX, Rehg JM. CENTRIST: A visual descriptor for scene categorization. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2011,33(8):1489-1501 .


2.行人檢測綜述性文章  

[1] D. Geronimo, and A. M.Lopez. Vision-based Pedestrian Protection Systems for Intelligent Vehicles, BOOK, 2014.

[2] P.Dollar, C. Wojek,B. Schiele, et al. Pedestrian detection: an evaluation of the state of the art [J].IEEE Transactions on PatternAnalysis andMachine Intelligence, 2012, 34(4): 743-761.

[3]蘇鬆志, 李紹滋, 陳淑媛等. 行人檢測技術綜述[J]. 電子學報, 2012, 40(4): 814-820.

[4]M. Enzweiler, and D.Gavrila. Monocular pedestrian detection: survey and experiments [J]. IEEE Transactions on Pattern Analysis andMachine Intelligence, 2009, 31(12): 2179-2195.

[5] D. Geronimo, A. M.Lopez and A. D. Sappa, et al. Survey of pedestrian detection for advanced driverassistance systems [J]. IEEE Transactionson Pattern Analysis and Machine Intelligence, 2010, 32(7): 1239-1258.

[6]賈慧星, 章毓晉.車輛輔助駕駛系統中基於計算機視覺的行人檢測研究綜述[J], 自動化學報, 2007, 33(1): 84-90.

[7] 許言午, 曹先彬,喬紅. 行人檢測系統研究新進展及關鍵技術展望[J], 電子學報, 2008, 36(5): 368-376.

[8] 杜友田; 陳峰;徐文立; 李永彬;基於視覺的人的運動識別綜述, 電子學報, 2007. 35(1): 84-90.

[9]朱文佳. 基於機器學習的行人檢測關鍵技術研究[D]. 第一章, 碩士學位論文, 上海交通大學. 2008. 指導教師: 戚飛虎.

 最新論文

2014_ITS_Toward real-time pedestrian detection based on a deformable template model

2014_PAMI_Scene-specific pedestrian detection for static video surveillance

2014_CVPR_Pedestrian Detection in Low-resolution Imagery by Learning Multi-scale Intrinsic Motion Structures (MIMS)

2014_CVPR_Switchable Deep Network for Pedestrian Detection

2014_CVPR_Informed Haar-like Features Improve Pedestrian Detection

2014_CVPR_Word Channel Based Multiscale Pedestrian Detection Without Image Resizing and Using Only One Classifier

2013_BMVC_Surveillance camera autocalibration based on pedestrian height distribution

2013_Virtual and real world adaptation for pedestrian detection

2013_Search space reduction in pedestrian detection for driver assistance system based on projective geometry

2013_CVPR_Robust Multi-Resolution Pedestrian Detection in Traffic Scenes

2013_CVPR_Optimized Pedestrian Detection for Multiple and Occluded People
2013_CVPR_Pedestrian Detection with Unsupervised and Multi-Stage Feature Learning
2013_CVPR_Single-Pedestrian Detection aided by Multi-pedestrian Detection
2013_CVPR_Modeling Mutual Visibility Relationship in Pedestrian Detection
2013_CVPR_Local Fisher Discriminant Analysis for Pedestrian Re-identification

 3.行人檢測source code

1.INRIA Object detection and Localization Toolkit, Dalal於2005年提出了基於HOG特徵的行人檢測方法,行人檢測領域中的經典文章之一。HOG特徵目前也被用在其他的目標檢測與識別、影象檢索和跟蹤等領域中。

2. Real-time Pedestrian Detection. Jianxin Wu實現的快速行人檢測方法。

3. Hough Transfom for Pedestrian Detection. Olga Barinova, CVPR 2010 Paper: On detection of multiple object instances using Hough Transforms

4. HIKSVM, HOG+LBP+HIKSVM, 行人檢測的經典方法.

5. GroundHOG, GPU-based Object Detection with Geometric Constraints, In: ICVS, 2011. CUDA版本的HOG+SVM, video.

6. 100FPS_PDS, Pedestrian detection at 100 frames per second, R. Benenson. CVPR, 2012. 實時的(⊙o⊙)哦。 Real-time!!!

7. POM: Probabilistic Occupancy Map. Multiple camera pedestrian detection.

8. Pitor Dollar Detector. Integral Channel Feature + 多尺度特徵近似+多特徵融合. Real-Time!

4.行人檢測DataSets

MIT資料庫

該資料庫為較早公開的行人資料庫,共924張行人圖片(ppm格式,寬高為64x128),肩到腳的距離約80象素。該資料庫只含正面和背面兩個視角,無負樣本,未區分訓練集和測試集。Dalal等採用“HOG+SVM”,在該資料庫上的檢測準確率接近100%。

INRIA資料庫

該資料庫是目前使用最多的靜態行人檢測資料庫,提供原始圖片及相應的標註檔案。訓練集有正樣本614張(包含2416個行人),負樣本1218張;測試集有正樣本288張(包含1126個行人),負樣本453張。圖片中人體大部分為站立姿勢且高度大於100個象素,部分標註可能不正確。圖片主要來源於GRAZ-01、個人照片及google,因此圖片的清晰度較高。在XP作業系統下部分訓練或者測試圖片無法看清楚,但可用OpenCV正常讀取和顯示。

Daimler行人資料庫

該資料庫採用車載攝像機獲取,分為檢測和分類兩個資料集。檢測資料集的訓練樣本集有正樣本大小為18x36和48x96的圖片各15560(3915x4)張,行人的最小高度為72個象素;負樣本6744張(大小為640x480或360x288)。測試集為一段27分鐘左右的視訊(解析度為640x480),共21790張圖片,包含56492個行人。分類資料庫有三個訓練集和兩個測試集,每個資料集有4800張行人圖片,5000張非行人圖片,大小均為18x36,另外還有3個輔助的非行人圖片集,各1200張圖片。

Caltech行人資料庫

該資料庫是目前規模較大的行人資料庫,採用車載攝像頭拍攝,約10個小時左右,視訊的解析度為640x480,30幀/秒。標註了約250,000幀(約137分鐘),350000個矩形框,2300個行人,另外還對矩形框之間的時間對應關係及其遮擋的情況進行標註。資料集分為set00~set10,其中set00~set05為訓練集,set06~set10為測試集(標註資訊尚未公開)。效能評估方法有以下三種:(1)用外部資料進行訓練,在set06~set10進行測試;(2)6-fold交叉驗證,選擇其中的5個做訓練,另外一個做測試,調整引數,最後給出訓練集上的效能;(3)用set00~set05訓練,set06~set10做測試。由於測試集的標註資訊沒有公開,需要提交給Pitor Dollar。結果提交方法為每30幀做一個測試,將結果儲存在txt文件中(檔案的命名方式為I00029.txt I00059.txt ……),每個txt檔案中的每行表示檢測到一個行人,格式為“[left, top,width, height, score]”。如果沒有檢測到任何行人,則txt文件為空。該資料庫還提供了相應的Matlab工具包,包括視訊標註資訊的讀取、畫ROC(Receiver Operatingcharacteristic Curve)曲線圖和非極大值抑制等工具。

TUD行人資料庫

TUD行人資料庫為評估運動資訊在行人檢測中的作用,提供影象對以便計算光流資訊。訓練集的正樣本為1092對影象(圖片大小為720x576,包含1776個行人);負樣本為192對非行人影象(手持攝像機85對,車載攝像機107對);另外還提供26對車載攝像機拍攝的影象(包含183個行人)作為附加訓練集。測試集有508對影象(影象對的時間間隔為1秒,解析度為640x480),共有1326個行人。Andriluka等也構建了一個數據庫用於驗證他們提出的檢測與跟蹤相結合的行人檢測技術。該資料集的訓練集提供了行人的矩形框資訊、分割掩膜及其各部位(腳、小腿、大腿、軀幹和頭部)的大小和位置資訊。測試集為250張圖片(包含311個完全可見的行人)用於測試檢測器的效能,2個視訊序列(TUD-Campus和TUD-Crossing)用於評估跟蹤器的效能。

NICTA行人資料庫

該資料庫是目前規模較大的靜態影象行人資料庫,25551張含單人的圖片,5207張高解析度非行人圖片,資料庫中已分好訓練集和測試集,方便不同分類器的比較。Overett等用“RealBoost+Haar”評估訓練樣本的平移、旋轉和寬高比等各種因素對分類效能的影響:(1)行人高度至少要大於40個象素;(2)在低解析度下,對於Haar特徵來說,增加樣本寬度的效能好於增加樣本高度的效能;(3)訓練圖片的大小要大於行人的實際大小,即背景資訊有助於提高效能;(4)對訓練樣本進行平移提高檢測效能,旋轉對效能的提高影響不大。以上的結論對於構建行人資料庫具有很好的指導意義。

ETH行人資料庫

Ess等構建了基於雙目視覺的行人資料庫用於多人的行人檢測與跟蹤研究。該資料庫採用一對車載的AVT Marlins F033C攝像頭進行拍攝,解析度為640x480,幀率13-14fps,給出標定資訊和行人標註資訊,深度資訊採用置信度傳播方法獲取。

CVC行人資料庫

該資料庫目前包含三個資料集(CVC-01、CVC-02和CVC-Virtual),主要用於車輛輔助駕駛中的行人檢測研究。CVC-01[Geronimo,2007]有1000個行人樣本,6175個非行人樣本(來自於圖片中公路區域中的非行人圖片,不像有的行人資料庫非行人樣本為天空、沙灘和樹木等自然影象)。CVC-02包含三個子資料集(CVC-02-CG、CVC-02-Classification和CVC-02-System),分別針對行人檢測的三個不同任務:感興趣區域的產生、分類和系統性能評估。影象的採集採用Bumblebee2立體彩色視覺系統,解析度640x480,焦距6mm,對距離攝像頭0~50m的行人進行標註,最小的行人圖片為12x24。CVC-02-CG主要針對候選區域的產生,有100張彩色影象,包含深度和3D點資訊;CVC-02-Classification主要針對行人分類,訓練集有1016張正樣本,7650張負樣本,測試集分為基於切割視窗的分類(570張行人,7500張非行人)和整張圖片的檢測(250張包含行人的圖片,共587個行人);CVC-02-System主要用於系統的效能評估,包含15個視訊序列(4364幀),7983個行人。CVC-Virtual是通過Half-Life 2影象引擎產生的虛擬行人資料集,共包含1678虛擬行人,2048個非行人圖片用於測試。

USC行人資料庫

該資料庫包含三組資料集(USC-A、USC-B和USC-C),以XML格式提供標註資訊。USC-A[Wu, 2005]的圖片來自於網路,共205張圖片,313個站立的行人,行人間不存在相互遮擋,拍攝角度為正面或者背面;USC-B的圖片主要來自於CAVIAR視訊庫,包括各種視角的行人,行人之間有的相互遮擋,共54張圖片,271個行人;USC-C有100張圖片來自網路的圖片,232個行人(多角度),行人之間無相互遮擋。

5.Others

相關資料資料
1. Edgar Seemann維護的行人檢測網站,比較全,包括publications, code, datasets等。
2. Pedestrian detection: state of the art. A video talk byPitor Dollar. Pitor Dollar做了很多關於行人檢測方法的研究,他們研究小組的Caltech Pedestrian Dataset也很出名。

3. Statistical and Structural Recognition of Human Actions. ECCV, 2010 Tutorial, by Ivan Laptev and Greg Mori. (注:要用爬牆軟體才能訪問到)
4. Human Action Recognition in realistic scenarios, 一份優秀的碩士生畢業論文開題資料。

6.人體行為識別(Human Action Recognition)

http://hi.baidu.com/susongzhi/item/656d196a2dcd733cac3e83e3

參考:http://blog.csdn.net/huixingshao/article/details/43793685

          http://hi.baidu.com/susongzhi/item/085983081b006311eafe38e7
--------------------- 
作者:曼陀羅彼岸花 
來源:CSDN 
原文:https://blog.csdn.net/tiandijun/article/details/50603448 
版權宣告:本文為博主原創文章,轉載請附上博文連結!