【視訊監控中的行人再識別技術綜述】
轉自:警察技術雜誌
作者:尹萍 趙亞麗
摘 要:針對視訊監控中的行人再識別問題,介紹了行人再識別概念、研究現狀、效能評測、安防應用四個主要部分;通過對行人再識別演算法的效能分析,論述了各種演算法的特點;同時,重點介紹了行人再識別演算法效能測試所採用的常用資料集,以及相應的評測指標;最後介紹了視訊監控中的行人再識別使用情況和所需要關注的重點研究內容。
關鍵詞:行人再識別 跨視域跟蹤 行人檢測 特徵提取 視訊監控
引言
我國平安城市建設發展迅速,利用眾多的視訊監控攝像頭快速、準確獲取場景中的人像資訊對安防和公安刑偵業務十分重要。到十三五初期,我國已初步建成覆蓋主要大中小城市的視訊監控網。據統計,我國城鎮視訊監控鏡頭已經超過
隨著攝像頭網路規模和數量不斷增加,所監控區域的環境越來越多樣,人工分析視訊影象因其效率低下、需要耗用大量人力資源而越來越跟不上當前公安業務發展的需求。一方面,儘管基於人工智慧技術的人臉識別在交通卡口和攝像頭角度適合的情況下能夠正常工作,但是多數監控中的人臉因影象質量不滿足要求而無法進行識別;另一方面,利用視訊監控進行案件偵破時,多數場合只能看清行人的身體部分,需要進行跨視域的連續跟蹤查詢。
行人再識別指的是對於某個攝像頭中出現的一個行人,識別其是否在其它攝像頭中再次出現。基於行人再識別的連續跟蹤,有可能在某個攝像頭下能夠獲取到可以進行自動人臉識別的影象。行人再識別是當前計算機視覺和模式識別領域中的前沿課題,對公安刑偵和安防監控具有非常重要的應用價值。近年來,雖然單個攝像頭視訊序列分析技術已經取得了長足的進步,其中部分已經取得了實際的應用,但是,單個攝像頭無法覆蓋到更廣大的區域,因此分析一個地區的視訊資訊需要綜合多個攝像頭的視訊序列。跨視域指各攝像頭位於不同的位置和視角,其視域互不重疊,如圖
行人再識別是多攝像頭視訊監控系統中至關重要的一環,是一種基於視覺外觀資訊的目標識別方法。近年來眾多的研究工作開始轉向跨視域多攝像頭下的行人再識別問題。這裡隱含地假設行人影象是在相近的時間段內被拍攝到的,其衣服或體型沒有太大的變化。
一、視訊監控中的行人再識別
行人再識別的研究開始於多攝像頭跟蹤。在早期,行人再識別常常與多攝像頭跟蹤聯絡在一起,其行人外觀模型往往與跨視域多攝像頭校準整合在一起。
行人再識別主要研究使用視覺特徵來匹配行人目標。良好的行人再識別方法可以在多攝像頭跟蹤子系統中與攝像頭網路拓撲推導的時空推理資訊相結合,進一步篩選所需匹配的行人候選集。行人再識別是非常具有挑戰性的,因為同一個人在不同攝像頭視域下捕獲到的行人影象常常有著解析度、亮度、姿態和視角等的顯著變化。由於監控攝像頭拍攝到的尺寸通常較小,因此大量的視覺細節(如人臉)在影象中是模糊不可區分的,而一些行人影象在外觀上看起來又比較相似。因此,用於匹配影象的描述子和距離度量需要對這些攝像頭之間的變化具有高度的鑑別力和魯棒性。從技術上講,行人再識別子系統又可以分為兩個模組,即行人檢測和行人檢索,因為通常把行人檢測模組作為單獨的計算機視覺任務,所以大多數行人再識別的工作集中於行人檢索模組。從計算機視覺的角度來看,行人再識別中最具挑戰性的問題是如何在劇烈地外觀變化下(例如照明、姿勢和視域等)正確地匹配同一個人的兩張行人影象,而這具有重要的應用價值。另外,不同的攝像頭視域之間通常存在非常大的視角、照明條件和攝像頭設定的變化,這樣就給基於外觀的跨視域多攝像頭下人像匹配帶來了巨大的挑戰。
二、技術現狀
行人再識別由於受到不同攝像頭所處的角度、光照等環境的影響,會導致尺度、光照和角度的變化,同一個行人在不同攝像頭中的影象中,表觀會有一定程度的變化,有時不同行人的特徵可能比同一個人的外貌特徵更相似,這是難點所在。針對這些問題,行人再識別領域的研究工作主要採用研究行人物件的特徵表示方法,提取更具有魯棒性的鑑別特徵對行人進行表示,以及採用距離度量學習方法,通過學習一個有判別力的距離度量函式,使得同一個人的影象間距離小於不同行人影象間的距離。有的研究者也開始嘗試採用深度學習的方法,通過深度神經網路提取行人的影象特徵。
基於影象的行人再識別技術,其核心目標是為一張指定的行人影象找到包含N張行人影象的候選集中與之最相似的行人影象。為了將不同身份的行人區別出來,行人再識別需要提取有鑑別力的行人特徵描述子。在日常生活中,人類通常根據服飾識別是否是同一個行人,而在智慧多攝像頭監控系統中,行人外觀通常由於照明、行走姿勢、攝像頭視域的變化而劇烈變化。如何在劇烈的外觀變化下提取魯棒的描述子,是一個非常具有挑戰性的問題。顏色是在行人描述子中最常用的鑑別性特徵,同時,加入紋理特徵。基本方法是將行人前景從背景中分割出來,併為每個身體和身體部件計算一個對稱軸。基於身體不同部分計算加權顏色直方圖(Weighted Color Histogram,簡稱為WH)其中,WH 為對稱軸附近的畫素分配較大的權重,併為每個身體部件生成一個顏色直方圖;MSCR檢測穩定的顏色區域,並提取顏色、面積和質心等特徵;Gray和Tao在亮度通道上使用8個顏色通道(RGB、HS和YCbCr)和21個紋理濾波器,並且將行人影象劃為水平條。許多後來的工作採用與該方法相同的特徵集[6-8]。近幾年來,手工設計的行人描述子與上述早期工作相比或多或少保持了相似的設計思路。主要將行人影象劃分為以5個畫素為步長密集取樣的10×10區塊,從每個區塊中提取32維LAB顏色直方圖和128維SIFT描述子,接著使用鄰接約束搜尋從候選集影象中查詢與查詢影象區塊具有相同高度的最佳匹配水平條。
除了直接使用底層顏色和紋理特徵之外,另一類方法是基於屬性的特徵,屬性特徵可以被視為中間層表示。人們認為與底層描述子相比,屬性特徵對於影象變換更加魯棒。例如,有的研究者在VIPeR資料集上標註與服飾和軟生物特徵相關的15個二進位制屬性,接著底層顏色和紋理特徵被用於訓練屬性分類器,一些最近的工作借用外部資料進行屬性學習。Su等人將同一個行人在不同攝像頭下的二進位制語義屬性嵌入到連續的底層屬性空間中,使得屬性向量對於匹配更具鑑別力。Shi等人提出從現有的時裝攝影資料集學習一些屬性,其中包括顏色、紋理和類別標籤,這些屬性直接用於行人再識別,得到了較好的結果。
三、常用資料集
表1總結了目前行人再識別常用的一些資料集。這些資料集反映了各種場景,例如,GRID資料集收集於地下車站,iLIDS收集於機場到達大廳,CUHK01,CUHK02,CUHK03和Market-1501收集於大學校園。本文重點介紹下列幾個資料集。
1. VIPeR資料集
VIPeR資料集是目前最廣泛採用的基準測試資料集,它總共包含1264張影象,從戶外環境的兩個不同的攝像頭中捕獲。該資料集包括632個行人,每個行人有兩張影象。VIPeR廣泛用於評估行人識別外觀模型,並且非常具有挑戰性,因為其行人影象在視域、姿態、解析度和光照方面的變化很大。在此資料集中,所有影象均歸一化為128×48的畫素解析度。一般的評測方法如下,將該資料集隨機分為2個數量相等的部分,一個用於訓練,另一個用於測試。在一次試驗中,一個攝像頭中的影象依次作為查詢影象和另一個攝像頭上的候選集影象做匹配,如此重複10次試驗並計算平均結果作為最終結果。VIPeR資料集中的一些示例影象如圖2所示。
2. ETHZ資料集
ETHZ資料集包括從移動攝像頭捕獲的三個視訊序列,並且隨著行人外觀、攝像頭解析度、照明和重度遮擋的一系列變化而變化。該資料集結構如下:SEQ.#1包含83個行人(4857張影象);SEQ.#2包含35個行人(1936張影象);SEQ.#3包含28個行人(1762張影象)。在原始ETHZ資料集中,影象樣本被歸一化為64×32的畫素解析度。一般的評測方法也包括10次隨機試驗,每一次試驗為每個行人選擇一張影象構成候選集,剩下的則是查詢影象。10次試驗得到的平均結果作為最終結果。
3. PRID 450S資料集
PRID 450S資料集從兩個不相交的監控攝像頭上總共捕獲450對行人影象對。行人檢測矩形框是手動標記的,原始影象解析度為720×576畫素。此外,該資料集還提供了以下區域的行人部件分割:頭部、軀幹、腿部、軀幹處攜帶的物體(如果有的話)和軀幹下方攜帶的物體(如果有的話)。類似於VIPeR,一般的評測方法將該資料集隨機分為兩個數量相等的部分,一個用於訓練,另一個用於測試,並重復10次試驗取結果的平均值。PRID450S資料集中的一些示例影象如圖3所示。
4. Market-1501資料集
不同於上述三個小規模資料集,Market-1501資料集是一個大規模資料集,由清華大學研究團隊構建並公開。它包括由6個攝像頭(其中5個高清攝像頭和1個低清攝像頭)拍攝到的1501個行人、32668個檢測到的行人矩形框。每個行人至少由2個攝像頭捕獲到,並且在一個攝像頭中可能具有多張影象。另外值得一提的是,3368張查詢影象的行人檢測矩形框是人工繪製的,而候選集影象中的行人檢測矩形框則是使用DPM檢測器檢測得到的。該資料集提供的固定數量的訓練集和測試集均可以在單查詢或多查詢測試設定下使用。Market-1501資料集中的一些示例影象如圖4所示。
由表1中可以看到近年來公開資料集的一些趨勢:首先資料集規模越來越大。早期資料集的規模一般較小,而最近的一些諸如CUHK03資料集和Market-1501資料集,其資料規模較大,兩者都有超過1000個行人身份ID和超過10000個行人矩形框,這兩個資料集提供了大量的資料可用於訓練深度學習模型;第二,近期資料集的行人檢測矩形框開始採用諸如DPM行人檢測器自動生成,而非以往那樣由手工標註而成。在實際應用中,人力手工繪製候選集影象的行人矩形框往往是不可行的,而必須使用行人檢測器,這可能導致檢測得到的行人邊界框偏離理想的位置。Li等人指出由於行人檢測器錯誤(例如未對準),用檢測器生成的矩形框與手工標註的矩形框相比通常再識別準確率會更低。採用行人檢測器時不可避免會在行人候選集中加入許多誤檢結果。由於更多的干擾物被新增到候選集中,將導致行人再識別準確率下降。因此,研究具有諸如誤檢和未校準的實際缺陷的資料集是非常有益的;第三,近年來資料集使用了更多的攝像頭,比如Market-1501中的每個行人最多可由6個攝像頭拍攝到。這就要求度量學習方法具有良好的泛化能力,而非僅僅在某對攝像頭之間仔細地調優。
四、評測指標
評估行人再識別演算法時,通常使用累計匹配特性(CumulativeMatching Haracteristics,簡稱為CMC)曲線。CMC表示查詢ID出現在候選列表中的排名位置的累積概率。無論在候選集中有多少真實匹配,只有排名最高的匹配計入CMC計算。因此,基本上只有當每個查詢僅存在一個真實匹配時,CMC才是準確的評估方法。而在實踐中,人們更多地關注在列表的頂部位置返回的真實匹配,因此該評估方法是可行的。
然而為了研究的完整性,當候選集中存在多個真實匹配時,研究者提出使用平均正確率均值(mean Average Precision,簡稱為mAP)進行評估。採用mAP的動機是一個完美的行人再識別系統應該能為一個查詢影象返回候選集中所有真實匹配的行人影象。採用CMC時,如果兩個系統同樣有能力發現第一個真實匹配,但卻有不同的召回能力,在這種情況下,CMC相比於mAP沒有足夠的鑑別能力。因此,mAP是一個更全面的評測指標。
五、行人再識別在視訊監控中的應用及展望
行人再識別技術具有非常重要的理論意義和應用價值。What,When,Where和Who是智慧視訊監控系統不可或缺的四個要素。例如,我們不僅關心在地鐵站內是否發生以及什麼時候在什麼位置發生了丟棄包裹的行為,而且也關心行為人的身份資訊,希望能夠利用行為人離開時的行人特徵資訊獲得該人在監控網路中的行跡。行人再識別主要關注跨視域人物識別場景下的身份識別問題,將其中一個攝像機中的行人影象作為查詢樣本,將另外一個或多個攝像機中的所有行人的影象作為查詢庫,在查詢庫中檢索與查詢樣本屬於同一個人的樣本,從而實現跨視域的人物身份識別。
行人再識別技術正在研發和試用過程中,因其難度較大,產品級的系統尚未投入使用。目前,公安部第一研究所採用清華大學的行人再識別技術開始在公共場所進行測試。相信在不久的將來,隨著行人再識別技術的發展,該技術必將在公安和安防領域投入使用,發揮巨大的工作效益。
隨著視訊監控系統的普及,基於視訊監控的行人再識別近年來已成為智慧視訊分析領域最為活躍的研究方向之一。行人再識別的任務是在不同攝像頭下根據行人表觀識別行人,因為視角、姿勢和光照的變化,這項任務充滿了挑戰性。行人再識別的核心問題涉及影象的表示和匹配,而基於表觀的行人再識別可以被認為是影象檢索中搜索包含相同行人影象的一種應用。今後,行人再識別需要重點研究的課題包括更加準確的行人檢測、行人分割、行人屬性提取、以及高效能的人像匹配演算法。最近基於深度學習的卷積神經網路(CNN)的工作引起了廣泛的注意,在行人再識別技術中應用將能產生優越的效能,是未來主要的研究和發展方向。
參考文獻:
[1] Huang T, Russell S. Object Identification in a Bayesian Context.IJCAI, Volume 97, 1997.12761282.
[2] Zajdel W, Zivkovic Z, Krose B. Keeping Track of Humans: Have iSeen this Person Before? Robotics and Automation, 2005. ICRA 2005. Proceedingsof the 2005 IEEE International Conference on. IEEE, 2005. 20812086.
[3] Gheissari N, Sebastian T B, Hartley R. Person Reidentificationusing Spatiotemporal Appearance. Computer Vision and Pattern Recognition, 2006IEEE Computer Society Conference on,
volume 2. IEEE, 2006. 15281535.
[4] Farenzena M, Bazzani L, Perina A, et al. Person Re-Identificationby Symmetry-driven Accumulation of Local Features. Computer Vision and PatternRecognition (CVPR), 2010 IEEE Conference on. IEEE, 2010. 23602367.
[5] Gray D, Tao H. Viewpoint Invariant Pedestrian Recognition withan Ensemble of Localized Features. European Conference on Computer Vision.Springer, 2008. 262275.
[6] Prosser B, Zheng W S, Gong S, et al. Person re-identification bysupport vector ranking. BMVC, volume 2, 2010. 6.
[7] Zheng W S, Gong S, Xiang T. Reidentification by Relative DistanceComparison. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013, 35(3):653668.
[8] Ma A J, Yuen P C, Li J. Domain Transfer Support Vector Rankingfor Person Re-Identification Without Target Camera Label Information.Proceedings of the IEEE International Conference on Computer Vision, 2013.35673574.
[9] Li Z, Chang S, Liang F, et al. Learning Locally-adaptiveDecision Functions for Person Verification. Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition, 2013.36103617.
[10] Chen D, Yuan Z, Chen B, et al. Similarity Learning with SpatialConstraints for Person Re-identification. Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition, 2016. 12681277.
推薦閱讀:
那麼多視訊要上傳到網站上,網站是怎麼容納下來的?
https://www.wukong.com/answer/6529477318857982212/?iid=27581404302&app=news_article&share_ansid=6529477318857982212&wxshare_count=1&tt_from=weixin&utm_source=weixin&utm_medium=toutiao_android&utm_campaign=client_share