1. 程式人生 > >行人檢測、跟蹤與檢索領域年度進展報告

行人檢測、跟蹤與檢索領域年度進展報告



轉自:深度學習大講堂

編者按:在過去一年裡,行人檢測、行人跟蹤和行人檢索三項技術,在工業界已全面落地開花,其被廣泛應用於人工智慧、車輛輔助駕駛系統、智慧機器人、智慧視訊監控、人體行為分析、智慧交通等領域。然而,由於行人兼具剛性和柔性物體的特性,外觀易受穿著、尺度、遮擋、姿態和視角等影響,行人檢測仍然是計算機視覺領域中一個既具有研究價值、同時又極具挑戰性的熱門課題。南京理工大學的張姍姍教授將帶著大家回顧在過去的一年中,這三個領域在學術界的研究進展。文末提供張教授報告中提到的所有論文的下載連結。

行人檢測,就是將一張圖片中的行人檢測出來,並輸出bounding box級別的結果。而如果將各個行人之間的軌跡關聯起來,就變成了行人跟蹤。而行人檢索則是把一段視訊中的某個感興趣的人檢索出來。

行人檢測

卷積神經網路為通用物體檢測任務帶來了全面的效能提升。而行人檢測技術也使用了Faster R-CNN 這樣的通用檢測框架,因而效能也得到了很大的提升。在 CVPR 2015中,當時在競賽中的最好方法使用的還是傳統的ACF 檢測器,其漏檢率是18.5%;而在 ECCV 2016中,在使用了 CNN 後,行人檢測漏檢率降低到了9.6%。

在過去的一年中,行人檢測領域的工作大致可被歸為以下三類:

第一類是將傳統的檢測方法Boosting trees 和 CNN 結合起來。張姍姍等人在CVPR 2016的工作是使用 ICF 提取proposal,然後使用 CNN 進行重新打分來提高檢測的效能;在 ECCV 2016上,中山大學林倞教授課題組使用RPN 提取 proposal,同時提取卷積特徵,然後使用 Boosting trees進行二次分類,效能得到了很大的提升。

第二類是解決多尺度問題,例如在視訊資料中人的尺度變化問題。顏水成教授課題組提供了一種解決方法:訓練兩個網路,一個網路關注大尺度的人,另一個網路關注小尺度的人,在檢測時將兩個網路進行加權融合得到最終的結果,這樣能使效能得到很大的提升;UCSD 在 ECCV 2016上有一個類似的工作,提出在高層提取大尺度人的特徵,在低層提取小尺度人的特徵,這樣能保留儘量多的資訊量,使得對小尺度的行人也有較好的檢測效果。

第三類是使用語義分割資訊來輔助行人檢測。首先對整個影象進行語義分割,然後將分割的結果作為先驗資訊輸入到檢測網路中(包括傳統的 ICF 網路,以及現在常用的CNN),這樣可以通過對整體環境的感知來提高檢測的效果。

區別於通過提出一些新方法來提高檢測率的科研方式,2016年張姍姍等人從分析的角度對各個工作進行總結和歸納。通過分析錯誤案例來找到錯誤來源,並提出相應的解決方案以進一步提高檢測率。研究發現,在高層級中主要有兩類錯誤,分別是定位錯誤和背景分類錯誤。可以嘗試兩個解決方案,其一是針對檢測框對齊性比較差這一現象,可以通過使用對齊性更好的訓練樣本標籤來解決;而針對模型判別能力比較差的問題,可以通過在傳統的 ICF 模型上使用 CNN 進行重新打分來提升檢測的效能。

行人檢測任務存在一個領域遷移能力差的問題,例如在 Caltech dataset 上訓練的模型在其上的效能很好,但是其在 KITTI dataset上的效能卻比較差。之所以出現這樣的問題是因為現有的資料集的多樣性不夠,CVPR 2017上將會公佈一個新的行人檢測資料集:CityPersons。CityPersons資料集是脫胎於語義分割任務的Cityscapes資料集,對這個資料集中的所有行人提供 bounding box 級別的對齊性好的標籤。由於CityPersons資料集中的資料是在3個不同國家中的18個不同城市以及3個季節中採集的,其中單獨行人的數量明顯高於Caltech 和 KITTI 兩個資料集。實驗結果也表明,CityPersons 資料集上訓練的模型在 Caltech 和 KITTI 資料集上的測試漏檢率更低。也就是說,CityPersons資料集的多樣性更強,因而提高了模型的泛化能力。

多人跟蹤

在行人跟蹤任務中的一個非常重要的子任務是多人跟蹤,其中比較常見的是基於檢測的跟蹤,也就是將每一幀的檢測結果關聯成軌跡,每個行人目標都有各自的軌跡。在MOT排行榜上前六名的方法中,有三個使用了將跟蹤問題轉化為聚類問題的multi-cut 模型,並使用組合優化方法進行求解。multi-cut模型是一個非常簡潔的模型,沒有使用一些特定技巧,超引數也較少,其缺點是實時性比較差,速度不到1FPS。在 CVPR 2017上有個工作通過對求解器進行改進之後速度能達到8FPS,用multi-cut模型來求解跟蹤問題,不失為一個很有前景的研究方向。

行人檢索

關於行人檢索,也稱為行人再識別,從工程的角度來說,一個實用的行人再識別系統是包含行人檢測,跟蹤和檢索三個子模組的,但是因為行人檢測和行人跟蹤一般是作為單獨的課題進行研究,所以行人再識別主要關注的是檢索方面的問題。 行人再識別早年的工作主要是基於影象的,即給定一個待檢索行人(probe),在原型影象集上找到同一個人(gallery)。近幾年開始出現一些基於視訊的工作,此時 probe 和 gallery 也相應地變為了視訊序列。

在行人檢索這個領域,既有傳統的方法也有深度學習的方法。傳統方法主要基於度量學習,而深度學習方法最經典的模型是孿生網路,過去一年中提出了一些新的方法,就是為孿生模型上增加一些新的模組,包括使用新的損失函式、基於身體部位表示以及屬性學習等方法。如果輸入是視訊的話,對序列提取特徵時就需要對多幀進行池化操作。池化方法可採如傳統的最大值池、均值池化、以及 ECCV 2016中提出的自學習的池化方法來學習更好的池化方式。

悉尼科技大學在 ECCV 2016上釋出了一個基於視訊的行人再識別的資料集 MARS dataset,與先前的資料集相比,其規模更大,軌跡和框的數目都更多。

總結

由於人在影象和視訊資料中始終是重點關注的物件,所以吸引了很多研究者從事這方面的工作。而深度學習以及大規模的資料庫更是推動了這個領域的發展。行人檢測、行人跟蹤、以及行人檢索技術是緊密相連不可分割的,如果有更好的行人檢測方法,也會推動行人跟蹤和行人檢索技術的發展,同時最新研究表明,行人檢索可以輔助行人跟蹤任務。所以,行人檢測、行人跟蹤、以及行人檢索技術三者結合將是一個很好的研究方向。

文中提到所有論文的下載連結為:

http://pan.baidu.com/s/1eRO9xoY

致謝:

本文主編袁基睿,誠摯感謝志願者範琦、賀嬌瑜、李珊如對本文進行了細緻的整理工作。

該文章屬於“深度學習大講堂”原創,如需要轉載,請聯絡 astaryst。

作者簡介:

張姍姍教授,於2015年博士畢業於德國波恩大學計算機系,後在德國馬普計算機研究所任博士後研究員。2016年29歲的張姍姍回國任南京理工大學電腦科學與工程學院教授,研究領域涉及目標檢測、及無人駕駛中的視覺感知技術,發表各類國際會議及期刊數十篇,是一位美貌與智慧並重的青年學者。