1. 程式人生 > 其它 >(2022 IVC 行人再識別綜述)Deep learning-based person re-identification methods: A survey and outlook of recent works

(2022 IVC 行人再識別綜述)Deep learning-based person re-identification methods: A survey and outlook of recent works

目錄
Deep learning-based person re-identification methods A survey and outlook of recent works

深度學習行人重識別綜述與展望

論文地址:https://arxiv.org/abs/2110.04764

摘要

  近年來,隨著公共安全需求的不斷增加和智慧監控網路的快速發展,行人再識別(Re-ID)已成為計算機視覺領域的研究熱點之一。Person Re-ID的主要研究目標是從不同的攝像機中檢索出具有相同身份的人。然而,傳統的Person Re-ID方法需要對person target進行人工標記,耗費大量人力成本。隨著深度神經網路的廣泛應用,出現了很多基於深度學習的Person Re-ID方法。因此,本文旨在方便研究人員瞭解該領域的最新研究成果和未來趨勢。首先,我們總結了最近發表的幾項行人Re-ID調查的研究,並補充了最新的研究方法,以系統地對基於深度學習的行人Re-ID方法進行分類。其次,我們提出了一種多維分類法,將當前基於深度學習的Person Re-ID方法根據度量和表示學習分為四類,包括深度度量學習方法、區域性特徵學習方法、生成對抗學習方法和序列特徵學習方法。此外,我們根據其方法和動機細分上述四個類別,討論部分子類別的優點和侷限性。最後,我們討論了Person Re-ID的一些挑戰和可能的研究方向。

1、引言

  近年來,隨著智慧監控裝置的快速發展和公共安全需求的不斷提高,在機場、社群、街道、校園等公共場所部署了大量攝像頭。這些攝像頭網路通常跨越覆蓋範圍不重疊的大地理區域,每天都會生成大量監控視訊。我們使用這些視訊資料來分析現實世界中行人的活動模式和行為特徵,用於目標檢測、多攝像頭目標跟蹤和人群行為分析等應用。PersonReID可以追溯到多目標多攝像頭跟蹤(MTMCTtracking)[1]的問題,其目的是判斷不同攝像頭捕捉到的行人或同一攝像頭不同視訊片段中的行人影象是否為同一行人[2]。圖1說明了由多個具有非重疊視場的攝像機監控的監視區域的示例。

  圖2顯示了Person Re-ID系統的完整流程,主要包括兩個階段:行人檢測和重新識別[3]。對於行人檢測,出現了很多檢測精度高的演算法,如YOLO[4]、SSD[5]和FastR-CNN[6]。Person Re-ID從檢測到的行人影象中構建一個大型影象資料集(Gallery),並使用探測影象(Probe)從中檢索匹配的行人影象,因此Person Re-ID也可以視為影象檢索任務[7]。Person Re-ID的關鍵是學習行人的判別特徵,以區分身份相同和身份不同的行人影象。
然而,在現實世界中,行人可能出現在多個區域的多個攝像頭中,會增加學習行人判別特徵的難度。

  傳統的Person Re-ID方法主要採用人工提取固定判別特徵[8-12]或學習更好的相似性度量[13-16],容易出錯且耗時,極大地影響了行人Re-ID的準確性和實時性-ID任務。2014年,深度學習首次應用於Person Re-ID領域[17,18]。圖3表明,多年來收集的行人Re-ID論文的比例顯著增加。一些研究人員設計了不同的損失函式來優化網路模型對判別特徵的學習[19-23]。其他研究人員通過引入區域性特徵學習[24-28]或使用注意力機制關注身體部位的關鍵資訊[29-34]來提取行人更穩健的特徵。吳等人[35,36]探索了高階特徵提取的方法,旨在通過建模概念間關係來探索基於上下文的概念融合,這些關係不是基於語義推理建模的[37]。一些工作通過結合行人的全域性和區域性特徵來增強最終的特徵表示[38-44]。由於GAN在生成影象和學習特徵方面的良好表現,生成對抗學習被廣泛用於行人Re-ID任務[45-55]。為了緩解單幀影象中資訊的短缺,一些研究人員利用視訊序列的互補空間和時間線索來有效地融合視訊序列中的更多資訊[56-61]。最近,基於圖卷積網路的方法[60,62-65]也出現了,通過對行人影象上的圖關係進行建模來學習更具辨別力和魯棒性的特徵。一些研究人員[66,67]通過利用行人3D形狀的資訊來提高行人ReID模型的魯棒性。這些方法很多,並且有不同的側重點。為了讓研究人員快速瞭解Person Re-ID領域的發展現狀和有價值的研究方向,我們對基於深度學習的Person Re-ID方法進行了深入調查,並總結了最近幾年的相關研究成果。

  在本次調查之前,一些研究人員[3,68–77,77–81]還審查了Person Re-ID欄位。在表1中,我們總結了這些評論的主要貢獻。其中一些調查[3,69]總結了基於影象和基於視訊的行人重識別方法。其他調查[70,73,74,77-79]從不同維度總結了基於深度學習的Person Re-ID方法,在2014年後迅速發展,成為主要的研究手段。最近,王等人[81]概述了跨域行人重識別的方法,並比較了這些方法在公共資料集上的效能。亞古比等人[80]提出了一種多維分類法,根據不同的視角對最相關的研究進行分類。周等人[82]提供了一篇綜述,總結了過去十年計算機視覺領域泛化的發展。貝赫拉等人[83]回顧了上下文和非上下文維度的傳統和深度學習行人重識別方法。吳等人[84]提出了新的分類法,用於行人Re-ID的特徵提取和度量學習這兩個組成部分。貝赫拉等人[85]概念化了在物聯網平臺上解釋各種未來線索以實現行人重識別的概述。

  然而,這些調查仍有一些改進之處,缺乏對基於深度學習的行人重識別方法的系統分類和分析,也錯過了許多關於行人重識別的討論部分。在本文中,與上述綜述相比,我們更側重於Person Re-ID任務中深度學習方法的度量學習和表示學習,並補充了近年來的最新研究方法。我們對現有的基於深度學習的方法進行了深入和全面的回顧,並討論了它們的優點和侷限性。我們根據度量和表示學習維度對基於深度學習的行人重識別方法進行分類,包括四類:深度度量學習、區域性特徵學習、生成對抗學習和序列特徵學習。
深度度量學習專注於為模型訓練設計更好的損失函式。Person Re-ID的常見損失函式包括:分類損失、驗證損失、對比損失、三重損失和四重損失。表徵學習側重於開發特徵構建策略[78,86]。因此,我們討論了近期Person Re-ID方法中常見的特徵學習策略,主要分為三類:1)區域性特徵學習,它學習部分級別的區域性特徵來為每個人影象制定組合表示;2)生成對抗學習,它學習影象特定的風格表示或解開表示,以實現影象-影象的風格轉移或提取不變特徵;3)序列特徵學習,它使用多個影象幀和時間資訊來學習視訊序列表示。此外,我們根據他們的方法和動機細分了上述四類。該分類結構清晰,全面反映了Re-ID任務中最常見的深度學習方法和各種表示學習方法。因此,適合研究人員根據實際需要探索Person Re-ID。此外,我們試圖討論幾個挑戰和研究方向。

  具體來說,我們工作的主要貢獻總結如下:
•我們總結了最近發表的幾項行人重識別調查的研究,並補充了最新的研究方法,以系統地對基於深度學習的行人重識別方法進行分類。
•我們全面回顧了近期基於深度學習的Person Re-ID的研究方法。然後,我們提出了一種多維分類法,根據度量和表示學習將這些方法分為四類,包括深度學習、區域性特徵學習、生成對抗學習和序列特徵學習。
•我們根據它們的方法和動機細分上述四個類別,討論部分子類別的優點和侷限性。這種分類更適合研究人員從他們的實際需求出發去探索這些方法。
•我們總結了Person Re-ID領域的一些現有挑戰,並認為仍有足夠的必要性對其進行研究。此外,我們討論了Person Re-ID研究行人的七個可能的研究方向。

  本調查的其餘部分結構如下。在第2節中,我們討論了用於行人Re-ID基準的通用資料集和評估指標。在sec:Methods中,我們全面回顧了當前基於深度學習的Person Re-ID方法,並根據度量學習和表示學習將它們分為四類。此外,我們根據它們的方法和動機細分了上述四個類別,討論了部分子類別的優點和侷限性。最後,在sec:ConclusionAndFutureDirections中,我們總結了這篇論文,並討論了Person Re-ID領域當前的挑戰和未來的方向。

2、資料集和度量標準

  在本節中,我們展示了用於評估現有基於深度學習的人Re-ID方法在影象和視訊維度上的通用資料集。此外,我們簡要描述了行人Re-ID的常見評估指標。

2.1資料集

  近年來,出現了許多提高Person Re-ID效能的方法。然而,現實世界的不確定性帶來的遮擋、光照變化、攝像機視角切換、姿態變化以及類似服裝等問題仍然無法很好地解決。這些挑戰使許多演算法仍然無法用於實際應用。因此,探索覆蓋更多真實場景的大規模行人重識別資料集至關重要。隨著基於深度學習的特徵提取方法逐漸取代傳統的手動特徵提取方法,深度神經網路需要大量的訓練資料,這導致了大規模資料集的快速發展。資料集的型別和註釋方法在資料集之間差異很大。通常,用於Person Re-ID的資料集可以分為兩類,即基於影象的資料集和基於視訊的資料集。以下小節將介紹兩種常用的資料集。

2.1.1基於影象的行人再識別資料集

  VIPeR[87]資料集是第一個提出的小人物Re-ID資料集。VIPeR包含兩個視點攝像頭,每個攝像頭僅捕獲一張影象。VIPeR使用手動標記的行人,包含1264張影象,共632個不同的行人。每個影象都被裁剪並縮放為128x48的大小。VIPeR資料集具有多個檢視、姿勢和光照變化,已經有許多研究人員進行測試,但它仍然是最具挑戰性的行人Re-ID資料集之一。

  CUHK01[88]資料集有971個人和3884個手動裁剪的影象,每個人還至少有兩個影象在兩個不相交的相機檢視中捕獲。在CUHK01資料集中,cameraA的視點和姿態變化較多,cameraB主要包括前檢視和後檢視的影象。

  CUHK02[89]資料集有1816個人和7264張手動裁剪的影象。CUHK02包含五對相機檢視(十個相機檢視),每個人還至少有兩個影象在兩個不相交的相機檢視中捕獲。與CUHK01[88]資料集相比,CUHK02資料集具有更多的身份和攝像機檢視,並且可以獲得更多的行人影象配置(即視點、姿勢、影象解析度、照明和光度設定的組合)。

  CUHK03[14]資料集屬於大規模Person Re-ID資料集,收集於香港中文大學。CUHK03由10個(5對)攝像頭獲取,並配備了一個手動標記和一個可變形部件模型(DPM)檢測器[90],以檢測行人邊界框。CUHK03包含1360個不同的行人,共有13164張影象,每張影象的大小都是可變的。CUHK03對CUHK01[88]和CUHK02[89]進行了改進,增加了攝像頭和捕獲影象的數量,從而從更多視點捕獲行人影象。CUHK03資料集使用行人檢測演算法DPM對行人進行標註,比使用單獨的人工標註更能相容現實世界中的Person Re-ID。

  Market-1501[91]資料集是2015年釋出的大規模行人Re-ID資料集,它是在清華大學一家超市前使用五個高解析度相機和一個低解析度相機獲取的。Market-1501使用行人檢測器DPM自動檢測行人邊界框。它包含1501個不同的行人,共有32,668張影象,每張影象的大小為128x64。與CUHK03相比,Market-1501的標註影象更多,包含2793+500k干擾因子,更接近真實世界。

  DukeMTMC-reID[92]資料集屬於MTMCT資料集DukeMTMC[93]的一個子集。DukeMTMC-reID資料集是在杜克大學使用八個靜態高清攝像機收集的。它包含16522張訓練影象(來自702人)、2228張查詢影象(來自其他702人)和17661張影象的搜尋庫(Gallery)。

  MSMT17[45]資料集是2018年釋出的大規模行人Re-ID資料集,由十五臺攝像機在校園內捕獲。MSMT17使用行人檢測器FasterR-CNN[94]自動檢測行人標記的幀。它包含4101條不同的行人資訊,共126,441張影象,是當前行人Re-ID任務中行人和標註影象的大型資料集之一。MSMT17資料集可以覆蓋比早期資料集更多的場景,幷包含更多檢視和顯著的照明變化。

  Airport[71]資料集是使用來自美國商業機場中央後安全檢查站安裝的六個攝像頭的視訊資料構建的。Airport資料集由9651個身份、31238個干擾項、總共39902張影象組成,每張影象都被裁剪並縮放為128x64的大小。機場使用使用聚合通道特徵(ACF)[95]檢測器生成的預檢測邊界框,可以準確反映現實世界的行人重識別問題。

  表2顯示了上述資料集的詳細資訊。大多數早期的基於影象的行人Re-ID資料集(VIPeR、CUHK01、CUHK02、CUHK03、Market-1501)具有以下侷限性:(1)覆蓋單個場景;(2)時間跨度短,光照變化不明顯;(3)昂貴的手動標註或過時的帶有DPM檢測的自動標註。CUHK03包含視點變化、檢測錯誤、遮擋影象。Market-1501包含視點變化、檢測錯誤和低解析度影象。但他們對現實世界的模擬相對較弱。DukeMTMC-reID資料集包含更具挑戰性的屬性,包括視點變化、光照變化、檢測錯誤、遮擋和背景雜波。MSMT17資料集收集了15臺攝像機為室內和室外場景拍攝的影象。因此,它呈現出複雜的場景變換和背景。這些視訊涵蓋了很長時間,因此呈現出複雜的照明變化。Airport資料集包含大量帶註釋的身份和邊界框。據我們所知,MSMT17和Airport是用於行人重識別的最大和最具挑戰性的公共資料集。

2.1.2基於視訊的行人再識別資料集

  PRID2011[96]資料集是2011年提出的基於視訊的行人Re-ID資料集,是從兩個不重疊的相機採集中獲得的,包含934個不同行人的總共24,541張影象和手動標記的行人邊界框。每張影象的解析度大小為128—64。

  iLIDS-VID[97]資料集由機場的兩個攝像頭獲取,包含300名行人和600條軌跡,共計42,495張行人影象。iLIDS-VID使用行人邊界框的手動註釋。

  MARS[98]資料集是2016年提出的第一個基於視訊的大規模行人重新識別資料集,其中包含1261個不同的行人以及從六個不同攝像機獲取的大約20,000個行人軌跡的視訊序列。DPM檢測器和廣義最大多角問題(GMMCP)跟蹤器[100]分別用於MARS的行人檢測和軌跡跟蹤。MARS資料集包含3248條幹擾軌跡,並固定有631和630個不同的行人,分別劃分訓練集和測試集。它可以被認為是Market-1501的擴充套件。

  DukeMTMC-VideoReID[19]資料集屬於MTMCT資料集DukeMTMC[93]的子集,用於基於視訊的行人Re-ID。該資料集包含1812個不同的行人,4832個行人軌跡共815,420張影象,其中408個行人作為干擾項,702個行人用於訓練,702個行人用於測試。

  LPW(LabeledPersonintheWild)[99]資料集是一個基於視訊序列的大型行人Re-ID資料集,它收集了三個不同的擁擠場景,包含2731個不同的行人和7694個行人軌跡,超過590,000張影象。LPW資料集是在擁擠的場景中收集的,並且有更多的遮擋,提供了更真實和更具挑戰性的基準。

  表3顯示了基於視訊的行人重識別資料集的詳細資訊。PRID2011和iLIDS-VID僅使用兩個攝像頭來捕捉視訊,並標記了較少的身份。這意味著其他身份只是單個攝像機幀片段,並且這些身份在該資料集中的照明和拍攝角度可能不會有太大變化。MARS和DukeMTMC-ViedeReID是基於視訊的大規模行人Re-ID資料集。它們的邊界框和軌跡是自動生成的,並且包含幾個自然檢測或跟蹤錯誤,並且每個標籤可能有多個軌跡。LPW是可用且更接近現實世界的最具挑戰性的基於視訊的行人Re-ID資料集之一,它在三個方面與現有資料集不同:更多的身份和軌跡、自動檢測的邊界框以及更擁擠的場景和更大的時間跨度。

  圖4顯示了部分行人Re-ID資料集的一些示例影象。我們可以看到,隨著大規模Person Re-ID資料集的發展,資料集中行人ID的數量和標註幀或軌跡的數量不斷增加,資料集覆蓋的場景也越來越豐富。這些資料集結合使用深度學習檢測器和人工標註來檢測行人邊界框,使最新的資料集越來越接近現實世界,從而增強了行人重識別模型的魯棒性。此外,幾乎所有主流的人Re-ID資料集都使用平均精度(mAP)和累積匹配特徵(CMC)曲線進行效能評估。

2.2評估度量

  行人重識別演算法常用的評價指標是累積匹配特徵(CMC)曲線和平均精度(mAP)。
  在模式識別系統中,CMC曲線是人臉、指紋、虹膜檢測和行人Re-ID等領域的重要評價指標,可以綜合評價模型演算法的優劣。
  此外,CMC曲線被認為是對Person Re-ID分類器效能的綜合反映。在計算CMC曲線之前,通過對查詢目標與待查詢目標影象的相似度進行排序,得到相簿中top-k檢索影象(top-k)包含正確查詢結果的概率Acck,計算得到如下:

  CMC曲線是通過將每個查詢影象的Acck相加併除以查詢影象的總數來計算的,通常表示為Rank-k。例如,Rank-1準確率表示正確匹配到匹配列表中的第一個目標的概率。

  單一的評價指標往往不能綜合評價Person Re-ID演算法的綜合性能。mAP可以反映所有查詢正確的影象在查詢結果中排在結果佇列前面的程度。同時考慮查詢過程的平均精度(AP)和精度召回曲線(PR)[91],而不是隻關注命中率,可以更全面地衡量行人重識別演算法的效能。’

  該演算法通常需要在個人Re-ID任務中單獨評估CMC曲線和mAP。鄭等人[8]提出了Re-ranking方法,可以對查詢結果進行重新排序,進一步提高Rank-k的有效性和mAP準確率。

3、基於深度學習的Re-ID方法

  在本節中,我們將基於深度學習的人Re-ID方法分為四類,分類結構如圖5所示,包括深度度量學習、區域性特徵學習、生成對抗學習和序列特徵學習的方法。此外,我們根據其方法和動機對上述四個類別進行細分,討論和比較部分子類別的優點和侷限性。

3.1深度度量方法

  深度度量學習(DML)是度量學習(ML)方法之一,旨在學習兩個行人物件之間的相似性或相異性。DML的主要目標是學習從原始影象到特徵嵌入(FE)的對映,使得相同的行人使用特徵空間上的距離函式具有更小的距離,而不同的行人特徵彼此之間的距離更遠[101,102]。隨著深度神經網路(DNN)的興起,DML已廣泛應用於計算視覺,例如人臉識別、影象檢索和行人Re-ID。DML主要用於通過為網路模型設計損失函式來約束判別特徵的學習[78]。在本文中,我們重點關注Person Re-ID任務中常用的損失函式,包括分類損失[19,20,47,51,103-105],驗證損失[20,78,106,107],對比損失[21,108,109],三元組損失[22,110,111]和四重損失[23]。五個損失函式的示意圖如圖6所示。這些深度度量學習方法使模型能夠自動學習判別特徵,這可以解決手動設計特徵消耗大量勞動力成本的問題。

3.1.1分類損失

  鄭等人[3,112]將行人Re-ID的訓練過程視為影象的多分類任務,並提出了一種ID判別嵌入(IDE)網路。IDE將每個行人視為不同的類別,並以行人的ID作為分類標籤來訓練深度神經網路,因此分類損失也稱為ID損失。分類損失的訓練網路通常輸入一張圖片並在網路末端連線一個全連線層(FC)進行分類,然後通過softmax啟用函式將影象的特徵向量對映到概率空間上。Person Re-ID任務多分類的交叉熵損失可以表示為:

  其中K表示每批訓練樣本ID類別的數量,q(xa)表示樣本影象xa的標籤。如果xa被識別為ya,則q(xa)=1,否則q(xa)=0。p(ya|xa)是使用softmax啟用函式將圖片xa預測為類別ya的概率。分類損失被廣泛用作Person Re-ID方法的深度度量學習,因為它具有易於訓練模型和挖掘硬樣本等優點[19,20,47,51,103-105]。然而,僅使用ID資訊不足以學習具有足夠泛化能力的模型。因此,ID損失通常需要結合其他損失來約束模型的訓練。

3.1.2驗證損失

  Person Re-ID也可以看作是一個驗證問題,提出驗證損失來指導模型的訓練。與分類損失相比,驗證損失訓練的網路需要兩幅影象作為輸入,通過融合兩幅影象的特徵資訊計算出二元損失,進而確定輸入的兩幅影象是否為同一行人[20,78,106,107]。交叉熵驗證損失函式的表示式如下:

  假設網路輸入兩幅影象xa和xb,我們分別得到這兩幅影象的特徵向量fa和fb,並計算出兩幅特徵向量的差異特徵fab=(fa−fb)2。我們使用softmax啟用函式計算影象對xa和xb具有相同行人ID的概率p,其中yab是兩幅影象的行人ID標籤。當影象xa和xb具有相同ID時,yab=1,否則,yab=0。

  驗證損失在識別方面效率較低,因為它在測試時只能輸入一對影象來判斷相似性,而忽略了影象對與資料集中其他影象之間的關係。出於這個原因,研究人員考慮將分類和驗證網路結合起來[106,107],組合損失可以表示為L=Lid+Lv。混合損失可以結合分類損失和驗證損失的優點,可以預測行人的身份ID並同時進行相似度度量,從而提高行人Re-ID的準確性。

3.1.3對比損失

  對比損失,主要約束資料對之間的相似性或相異性,通常用於人Re-ID任務中的孿生網路(SiameseNetwork)的模型訓練[21,108,109]。其功能可表示為:

  其中[z]+=max(0,z),xa和xb是同時輸入到孿生網路的兩個影象。d(xa,xb)通常表示兩幅影象的歐式距離(相似度)。m是設定的訓練閾值,y是每對訓練影象是否匹配的標籤。當y=1時,表示輸入影象xa和xb屬於具有相同ID的行人(正樣本對)。當y=0時,表示輸入影象xa和xb屬於不同ID的行人(負樣本對)。Lc很好地反映了樣本對的匹配程度,通常用於訓練模型進行行人Re-ID特徵提取,並且經常與訓練網路的分類損失組合一起使用[47]。

3.1.4Tripletloss

  Tripletloss是Person Re-ID任務中使用最廣泛的depthmetricloss之一,它旨在最小化樣本的類內距離和最大化樣本的類間距離。隨著深度神經網路的發展,出現了大量基於三元組損失的變體[22,110,111,113]。三元組損失函式可以表示為:

  與對比度損失不同,tripletloss的輸入是由三個影象組成的三元組。每個三元組包含一對正樣本和一個負樣本,其中xa是Anchor影象,xp是Positive影象,xn是Negative影象,xa和xp的行人ID相同。xa和xn的行人有不同的ID。通過模型訓練,使得歐幾里得空間中xa和xp之間的距離比xn和xa之間的距離更近。為了提高模型的效能,一些基於深度學習的人Re-ID方法使用了分類損失和三元組損失的組合[114-118]。實驗表明,將這兩種損失結合起來有助於模型學習判別特徵。傳統的tripletloss在訓練時會從訓練集中隨機選擇三張影象,可能導致樣本組合簡單,缺乏對硬樣本組合的訓練,使訓練模型泛化性較差。出於這個原因,一些研究人員考慮改進三重態損失以挖掘硬樣本[22,119,120]。

3.1.5Quadrupletloss

  三元組損失的另一個改進是新增負樣本圖片Xn2以形成四元組損失[23],其中負樣本Xn1和負樣本Xn2具有不同的行人ID。四元組損失函式的表示式為:

  其中m1和m2是自定義訓練閾值。正負樣本對具有相同的錨定影象xa。Lquad的第一項與三元組損失函式相同,用於約束正負樣本對之間的相對距離。傳統的三元組損失函式往往會增加負樣本對的類間距離,從而影響影象xa的特徵學習。出於這個原因,Lquad引入了第二項來約束正負樣本對之間的絕對距離。第二項中的正負樣本對具有不同的錨影象,可以有效減小正樣本對的類內距離,同時增加類間負樣本對的距離。為了使第一項發揮主導作用,通常在訓練過程中保證m1>m2是很重要的。然而,大多數使用tripletlossdrive的人Re-ID方法更側重於區分外觀差異,不能有效地學習細粒度特徵。為了解決這個問題,Yan等人[121]引入了一種新穎的成對損失函式,使Re-ID模型能夠通過自適應地執行指數懲罰來學習細粒度特徵。

3.2區域性特徵學習

  基於從行人影象中提取的特徵進行分類,Person Re-ID方法可以分為基於全域性特徵學習的方法和基於區域性特徵學習的方法。全域性特徵學習方法通常提取行人影象的一個特徵[122-124],這種方法很難捕捉到行人的詳細資訊。因此,如何提取具有細微差異的行人的判別性區域性特徵成為研究人員關注的問題。

  基於區域性特徵學習的方法旨在學習行人判別特徵並確保每個區域性特徵的對齊。人工標註或神經網路通常用於自動關注具有關鍵資訊的某些區域性區域,並從這些區域中提取區別特徵。常用的區域性特徵學習方法有預定義條紋分割[24,25,27,108,125,126]、多尺度融合[127-131]、軟注意[26,29-34,132,133]、行人語義提取[27,28,31,132,133]和全域性–區域性特徵學習[38-44]。這些方法可以緩解遮擋、邊界檢測錯誤、檢視和姿勢變化等問題。

3.2.1預定義的stripe分割

  基於預定義條帶分割的方法的主要思想是根據一些預定義的劃分規則對學習到的特徵進行條帶分割,這必須保證分割槽在空間上是對齊的。劉等人[125]提出了一種基於屬性和外觀的上下文注意網路,其中外觀網路從行人的整個身體、水平和垂直部分學習空間特徵。

  瓦里爾等人[108]將行人影象均勻地分成幾個條帶,並從每個條帶影象塊中提取區域性特徵。孫等人[24]考慮了每個條帶內的內容一致性,提出了一個區域性卷積基線(PCB)。PCB採用統一特徵劃分策略學習區域性特徵,輸出由多個條帶組成的卷積特徵,以增強每個劃分的特徵內容的一致性,從而保證條帶在空間上對齊。

  上述方法雖然可以提取條紋區域的判別特徵,但由於模型無法區分遮擋區域和未遮擋區域,可能會導致檢索結果不正確。為了緩解閉塞,Sun等人[25]提出了一種基於PCB的可見性感知區域性模型,通過學習兩個影象中可見的公共區域特徵,確保區域性特徵在空間上對齊並避免因行人遮擋而造成的干擾。傅等人[126]使用各種金字塔尺度將深度特徵圖水平分割成多個空間條帶,並使用全域性平均池化和最大池化來獲得每個條帶的判別特徵,稱為水平金字塔池化(HPP)。HPP可以忽略這些干擾資訊,主要來自相似的服裝或背景。

3.2.2多尺度融合

  小尺度特徵圖具有很強的空間幾何資訊表示能力,可以獲得影象的詳細資訊。大規模特徵圖擅長表徵語義資訊,可以獲得影象的輪廓資訊。提取多尺度的行人特徵進行融合,可以獲得豐富的行人特徵表示。

  劉等人[127]提出了一種多尺度三重卷積神經網路,可以捕捉不同尺度的行人外觀特徵。由於在不同尺度學習的行人特徵存在差異或衝突,多尺度特徵直接融合可能無法達到最佳融合效果。因此,研究人員開始關注跨尺度內隱聯想的互補優勢。陳等人[128]研究了Person Re-ID多尺度特徵學習的問題,提出了一種深度金字塔特徵學習深度神經網路框架,可以在學習多尺度互補特徵的同時克服跨尺度特徵學習的差異。周等人[135]提出了一種稱為全尺度網路(OSNet)的Re-IDCNN來學習不僅捕獲不同空間尺度而且封裝多個尺度的協同組合的特徵。在傳統的人Re-ID資料集中,OSNet儘管比現有的Re-ID模型小得多,但仍取得了令人讚歎的效能。大類內變異和小類間變異的挑戰經常出現在跨相機的行人Re-ID任務中。例如,跨攝像機視點變化會掩蓋具有辨別特徵的人的部分,或者穿著相似衣服的行人出現在攝像機之間,這使得同一個人的匹配不正確。

3.2.3軟注意力

  注意力的目標是找到對特徵圖有更大影響的區域,並將模型集中在身體外觀的有區別的區域性部位上,以糾正錯位,消除背景干擾。由於注意力機制在計算機視覺領域的良好表現,經常被用作Person Re-ID任務中的區域性特徵學習。目前大多數基於注意力的人重識別方法傾向於使用軟注意力,可分為空間注意力、通道注意力、混合注意力、非區域性注意力和位置注意力。劉等人[29]提出了一種基於注意力的深度神經網路,能夠捕獲從底層到語義層的多個注意力特徵,以學習行人的細粒度整合特徵。李等人[30]使用平衡注意力卷積神經網路來最大化不同尺度的注意力特徵的互補資訊,以解決任意未對齊影象的行人Re-ID挑戰。為了獲得一個人的區域性細粒度特徵,Ning等人[136]提出了一種具有多樣性損失的多分支注意力網路,通過去除干擾資訊的自適應濾波獲得區域性特徵。

  上述基於空間注意力的方法往往只關注行人的區域性判別特徵,而忽略了特徵多樣性對行人檢索的影響。陳等人[26]提出了一種注意多樣性網路,該網路使用互補通道注意模組(CAM)和位置注意模組(PAM)來學習行人多樣性的特徵。考慮到從一階注意力中提取的特徵,如空間注意力和通道注意力,在複雜的相機檢視和姿勢變化場景中沒有區別[32]。陳等人[33]提出了一個高階注意模組,它對注意機制中複雜的高階資訊進行建模,以挖掘行人之間的判別注意特徵。

3.2.4語義提取

  一些研究人員使用深度神經網路來提取身體部位或身體姿勢等語義資訊,而不是使用邊界框從行人身體部位提取區域性特徵,以提高行人Re-ID的效能。趙等人[28]考慮了人體結構資訊在行人Re-ID任務中的應用,並提出了一種新的CNN,稱為SpindleNet。具體來說,首先,SpindleNet使用身體部位生成網路定位身體部位的14個關鍵點,提取行人的7個身體區域。其次,SpindleNet使用卷積神經網路從不同的身體區域捕獲語義特徵。最後,SpindleNet使用具有競爭策略的樹融合網路來合併來自不同身體區域的語義特徵。SpindleNet可以在整個影象上對齊身體部位的特徵,並且可以更好地突出區域性細節資訊。

  有時,不僅身體部位包含區分特徵,而且非身體部位也可能包含某些關鍵特徵,例如行人的區分揹包或手提包。因此,一些研究人員考慮了非身體部位的對齊方式。郭等人[114]提出了一種雙重部分對齊的表示方案,該方案使用注意機制捕獲身體部位以外的區分資訊,通過利用來自準確人體部位和粗略非人體部位的互補資訊來更新表示。苗等人[27]提出了一種姿態引導的特徵對齊方案,通過行人姿態邊界標記來區分資訊和遮擋噪聲,從而對齊查詢影象和查詢影象的非遮擋區域。

3.2.5全域性-區域性特徵學習

  區域性特徵學習可以捕獲有關行人區域的詳細資訊,但區域性特徵的可靠性可能會受到姿勢和遮擋變化的影響。因此,一些研究人員經常將細粒度的區域性特徵與粗粒度的全域性特徵結合起來,以增強最終的特徵表示。Wang等人[38]提出了一種具有全域性和區域性資訊的多粒度特徵學習策略,包括一個全域性特徵學習分支和兩個區域性特徵學習分支。明等人[137]設計了一個全域性-區域性動態特徵對齊網路(GLDFA-Net)框架,其中包含全域性和區域性分支。在GLDFA-Net的本地分支中引入了局部滑動對齊(LSA)策略來指導距離度量的計算,可以進一步提高測試階段的準確性。為了減輕不精確的邊界框對行人匹配的影響,Zheng等人[43]提出了一種粗粒度到細粒度的金字塔模型,該模型不僅集成了行人的區域性和全域性資訊,還集成了從粗粒度到細粒度的漸進線索。該模型可以匹配不同尺度的行人影象,即使在影象未對齊的情況下,也能檢索到具有相同區域性身份的行人影象。

3.2.6對比和討論

  表4顯示了局部特徵學習方法在CUHK03、Market1501和DukeMTMC-reID資料集上的實驗結果。這些結果都是沒有重新排序的實驗結果[8]。總的來說,語義提取和全域性-區域性特徵學習方法的實驗效能明顯高於預定義條紋分割、多尺度融合和部分注意的方法。

  一般來說,預定義條紋分割方法簡單易實現,但分割難度大,對影象對齊要求高。隨著實景攝像機檢視和行人姿態的變化,硬分割策略不能很好地解決行人未對齊的問題。多尺度融合方法可以學習到行人影象更深層次的線索,但在不同尺度上會出現冗餘和特徵衝突。注意力只關注行人關鍵部位的區域性特徵,容易忽略非焦點區域的顯著特徵。語義提取方法通過學習行人姿態的結構資訊可以精確定位行人的區域性特徵,但需要額外的行人姿態模型計算。全域性-區域性特徵學習方法可以有效地利用全域性特徵和區域性特徵的互補優勢,是研究人員提高模型效能的常用方法之一。

3.3生成對抗學習

  2014年,Goodfellow等人[139]首先提出了生成對抗網路(GAN),並在近年來迅速發展。出現了大量GAN的變體和應用[45,47,51,54,55,140–143]。影象生成作為GAN的重要應用之一,被廣泛應用於Person Re-ID領域。圖7顯示了用於生成影象的GAN的工作流程圖。在訓練階段,生成器GAB將影象A轉換為帶有隨機噪聲的影象B,生成器GBA將影象B轉換為影象A,判別器DB確定生成的影象B是否近似於原始影象B的風格(Real或Fake)。生成器和判別器通過最小化判別器損失和L2損失[2]來保持對抗直到收斂。一些研究人員使用GAN來轉換影象的風格或統一不同的影象風格,以減輕不同資料集之間或同一資料集中的影象風格差異[45,47–51,144–147]。一些工作使用GAN來合成具有不同姿勢、外觀、照明和解析度的行人影象,以擴充套件資料集以提高模型的泛化能力[52–54,140,148–153]。
一些研究人員還使用GAN來學習與噪聲無關但與身份相關的特徵,以提高特徵匹配的準確性[46,55,141,154]。這些方法可以緩解少量訓練樣本、解析度、光照、檢視和姿勢變化。基於GAN的特點和應用場景,我們將基於生成對抗學習的Person Re-ID方法分為三類:影象-影象風格遷移、資料增強和不變特徵學習。對於影象-影象風格轉移方法,GAN學習了一張影象的背景、解析度、光照等特徵,並將這些特徵轉移到其他影象上,以賦予其他影象不同的風格。對於資料增強方法,GAN可以生成的樣本的多樣性來擴充套件資料集,用於增強最終的特徵表示。對於不變特徵學習,GAN被用於解耦表示學習,它可以學習與身份相關但與噪聲無關的特徵(例如,姿勢、光照、解析度等)。

3.3.1影象-影象風格轉移

  在行人重識別任務[45]中,不同資料集之間通常存在領域差距。當分別對各種資料集進行訓練和測試時,模型的效能會嚴重下降,這阻礙了模型對新測試集的有效泛化[155,156]。解決諸如域間隙之類的常見策略是使用GAN跨資料域執行樣式轉換。由於CycleGAN[142]實現了任意兩種影象風格的轉換,研究人員考慮對此進行改進,以實現不同資料集之間的自適應行人風格轉換,以減少或消除域像差。受CycleGAN的啟發,Wei等人[45]提出了一種人轉移生成對抗網路(PTGAN),將源域中的行人轉移到目標資料集,同時保留源域中行人的身份,使源域中的行人具有背景和照明風格的目標域。將源域中的行人轉移到目標資料集,使源域中的行人具有目標域的背景和光照模式。

  鄧等人[47]使用孿生網路和CycleGAN形成保持相似性的生成對抗網路(SPGAN),以無監督的方式將標記的行人從源域遷移到目標域。劉等人[48]提出了一種自適應傳輸網路(ATNet)。ATNet使用三個CycleGAN來實現相機檢視、光照、解析度的風格,並根據不同因素的影響程度自適應地為每個CycleGAN分配權重。鍾等人[50]提出了異質同質學習(HHL)方法,該方法不僅考慮了各種資料集之間的域差異,還考慮了目標域內相機的風格差異對跨域自適應人Re-ID效能的影響。鍾等人[51]引入了相機風格(CamStyle)來解決同一資料集中不同相機之間的風格變化問題。CamStyle使用CycleGAN將標記的訓練資料遷移到各種相機,使合成的樣本在保留行人標籤的同時具有不同相機的風格。此外,CamStyle還可以平滑同一資料集中各個相機之間的風格差異。

3.3.2資料增強

與使用GAN減少領域差距的風格轉換不同,基於資料增強的方法從模型的訓練開始,通過增加訓練資料的多樣性來提高模型的泛化能力。鄭等人[52]是第一個使用深度卷積生成對抗網路(DCGAN)[157]生成樣本資料的人。黃等人[53]提出了一種多偽正則化標籤(MpRL),它為每個生成的樣本分配一個適當的虛擬標籤,以建立真實影象和生成影象之間的對應關係。MpRL有效區分了各種生成的資料,在Market-1501、DukeMTMC-Reid和CUHK03等資料集上取得了良好的識別效果。

  劉等人[140]引入了行人姿勢資訊來幫助GAN生成樣本。GAN用於生成具有MARS資料中行人姿態結構和現有資料集中行人外觀的樣本影象。錢等人[150]使用姿勢歸一化GAN(PN-GAN)生成具有統一身體姿勢的行人影象。為了緩解早期方法生成的行人影象姿態容易出現較大偏差的問題,Zhuetal.[151]使用多層級聯注意網路訓練了鑑別器。判別器可以有效地利用姿態和外觀特徵優化行人的姿態變換,使生成的行人影象與輸入影象具有更好的姿態和外觀一致性。

3.3.3不變特徵學習

  除了合成影象之外,GAN還可以用於特徵學習。通常,現實世界中的行人重識別任務由高階和低階視覺變化組成[46]。前者主要包括行人遮擋、姿態、攝像頭視野的變化,後者主要包括解析度、光照、天氣等方面的變化。從低階視力變化獲得的影象通常稱為退化影象。這些視覺變化可能導致判別特徵資訊的丟失,這可能導致特徵不匹配並顯著降低檢索效能[158]。

  對於高階視覺中的姿勢變化,Ge等人[55]提出了特徵提取生成對抗網路(FD-GAN)來學習與行人身份相關的特徵,而不是行人的姿勢。該方法不需要額外的計算成本或輔助姿態資訊,並且在Market1501、CUHK03和DukeMTMC-reID上具有先進的實驗結果。
一些研究人員考慮使用GAN來學習低解析度和高解析度行人影象的常見不變特徵。陳等人[141]提出了一種端到端的解析度適應和重新識別網路(RAIN),它通過在低解析度和高解析度影象特徵中新增對抗性損失來學習和對齊不同解析度行人影象的不變特徵。李等人[154]提出了交叉解析度的對抗性學習策略,不僅學習了不同解析度行人影象的不變特徵,還利用超解析度(SR)恢復了低解析度影象丟失的細粒度細節資訊。

3.3.4對比和討論

  表5顯示了基於GAN的方法在CUHK03、Market1501和DukeMTMC-reID資料集上的實驗結果。這些結果都是沒有Re-ranking的實驗結果。IDE[3]+CameraStyle[51]和IDE[3]+UnityGAN[145]方法都使用GAN在同一資料集中生成具有不同相機風格的行人影象,在Market-1501和DukeMTMC-reID資料集中獲得了出色的實驗效能.FD-GAN[55]在CUKH03中效能最高,它獨立學習了與行人身份和姿勢相關的特徵,有效降低了姿勢對Person Re-ID準確率的影響。

  我們分別使用Market-1501(M)和DukeMTMC-reID(D)資料集作為源域和目標域。表6比較了傳統的手動特徵提取方法(LOMO[159]和Bow[91])、傳統的無監督方法(UMDL[160]、CAMEL[16]和PUL[161])以及基於GAN的跨域風格遷移方法(CycleGAN(基礎)[142]、PTGAN[47]、SPGAN[47]、HHL[50]、ATNet[48]和CR-GAN[49])。從實驗結果來看,跨域風格變換方法明顯優於傳統的無監督學習和手動特徵學習方法。

  一般來說,影象到影象的風格轉換方法可以平滑不同域中行人影象的風格變化。這種方法可以獲得大量具有目標域風格的自動標記合成影象,可以與原始影象一起使用,以增強訓練集並緩解不同資料集之間的域差距。這些方法的問題是合成影象中含有噪聲,用於模型訓練時可能與源域影象發生衝突,影響模型對判別特徵的學習。使用GAN生成多樣化行人影象的方法在一定程度上緩解了可用訓練資料不足的問題。沒有輔助資訊引導的影象合成方法無法生成具有足夠區分資訊的高質量影象。輔助資訊引導的影象合成方法需要複雜的網路結構來學習各種行人姿勢,這增加了額外的訓練成本。不變特徵學習方法可以通過學習與行人身份相關而不是姿勢、解析度和光照的特徵來緩解行人特徵未對齊的問題並提高行人Re-ID的準確性。

3.4序列特徵學習

  已經有許多研究人員利用視訊序列中包含的豐富資訊進行行人重識別。這些基於序列特徵學習的方法以短視訊為輸入,同時使用空間和時間互補線索,可以緩解基於外觀特徵的侷限性。這些方法中的大多數使用光流資訊[56,163–166]、3維卷積神經網路(3DCNN)[57,167]、迴圈神經網路(RNN)或長期短期記憶(LSTM)[164,165,168,169]、時空注意[58,59,166,170–173]或圖卷積網路(GCN)[60–62,174]對視訊序列的時空資訊進行建模。這些方法可以減輕遮擋、解析度變化、光照變化、檢視和姿勢變化等。

3.4.1光流法

  光流法是利用視訊序列中畫素在時域上的變化以及相鄰幀的時空上下文的相關性來獲得前一幀與當前幀的對應關係。該方法可以獲得目標在相鄰幀之間的運動資訊。鍾等人[56]提出了一種雙流卷積神經網路(DSCNN),其中每個流都是一個連體網路。DSCNN可以對RGB影象和光流進行建模,分別學習空間和時間資訊,允許每個連體網路提取最佳特徵表示。劉等人[163]提出了一種累積上下文網路(AMOC),它由兩個輸入序列組成,分別輸入原始RGB影象和包含運動資訊的光流影象。AMOC通過學習視訊序列的判別累積運動上下文資訊來提高Person Re-ID的準確性。光流法經常與其他方法結合使用,例如McLaughlin等人[165]利用光流資訊和影象的RGB顏色來捕捉運動和外觀資訊,結合RNN提取視訊序列的完整行人外觀特徵。

3.4.2 3D卷積神經網路

  三維卷積神經網路(3DC-NN)能夠捕獲視訊中的時間和空間特徵資訊。最近,一些研究人員將3DCNN應用於基於視訊的行人Re-ID並取得了不錯的效果。廖等人[57]提出了一種基於3DCNN和non-localattention相結合的視訊Person Re-ID方法。3DCNN在視訊序列上使用3D卷積來提取空間和時間特徵的聚合表示,並使用非區域性時空注意力來解決變形影象的對齊問題。儘管3DCNN表現出更好的效能,但堆疊的3D卷積導致引數顯著增長。過多的引數不僅使3DCNN計算量大,而且導致模型訓練和優化困難。這使得3DCNN不容易適用於基於視訊序列的行人Re-ID,其中訓練集通常很小並且行人ID註釋很昂貴。為了在減輕現有3DCNN模型的缺點的同時探索行人Re-ID的豐富時間線索,Li等人[167]提出了一種雙流多尺度3D卷積神經網路(M3DCNN),用於提取基於視訊的行人Re-ID的時空線索。M3DCNN也比現有的3DCNN更高效、更容易優化。

3.4.3 RNN或LSTM

  RNN或LSTM可以提取時間特徵,通常應用於基於視訊的行人重識別任務。麥克勞克林等人[165]提出了一種新穎的遞迴卷積網路(RCN),它使用CNN提取視訊幀的空間特徵,使用RNN提取視訊序列的時間特徵。嚴等人[169]使用基於LSTM的迴圈特徵聚合網路,獲得從第一個LSTM節點到最深LSTM節點的累積判別特徵,有效緩解了遮擋、背景雜波和檢測失敗造成的干擾。陳等人[164]將視訊序列分解為多個片段,並使用LSTM學習探測影象在時間和空間特徵中所在的片段。該方法減少了樣本中相同行人的變化,有利於相似特徵的學習。上述兩種方法都獨立處理每個視訊幀。LSTM提取的特徵通常受視訊序列長度的影響。RNN僅在高階特徵上建立時間關聯,因此無法捕捉影象區域性細節的時間線索[167]。因此,仍然需要探索一種更有效的時空特徵提取方法。

3.4.4時空注意力

  該注意力機制可以選擇性地關注有用的區域性資訊,在解決Person Re-ID任務中的攝像機檢視切換、光照變化和遮擋問題方面具有良好的效能。最近,一些研究人員使用注意力機制在時間和空間維度上解決了基於視訊的行人Re-ID任務。為解決視訊序列中行人姿態變化和攝像頭視角變化引起的不對齊和遮擋問題,Li等人[170]提出了一種時空注意力模型,其核心思想是利用多重空間注意力來提取關鍵身體部位的特徵,並利用時間注意力來計算每個空間注意力模型提取的組合特徵表示。該方法可以更好地挖掘視訊序列中潛在的區別特徵表示。同樣,傅等人[58]提出了一種時空注意框架,可以通過視訊幀選擇、區域性特徵挖掘和特徵融合,充分利用每個行人在時間和空間維度上的區別特徵。該方法可以很好地解決行人姿勢變化和部分遮擋等挑戰。徐等人[166]提出了一種聯合時空注意力池網路,通過視訊序列之間的相互依賴關係來學習視訊序列的特徵表示。

3.4.5圖卷積網路

  近年來,圖卷積網路(GCN)由於其強大的自動關係建模能力[175]被廣泛用於Person Re-ID任務,並且出現了大量的變體網路[60,62-65]。楊等人[60]提出了一個統一的時空圖卷積神經網路,它在三個維度上對視訊序列進行建模:時間、空間和外觀,並挖掘更多的判別性和魯棒性資訊。Wu等人[62]提出了一種用於視訊人物Re-ID的自適應圖表示學習方案,使用姿勢對齊連線和特徵相似性連線來構建自適應結構感知鄰接圖。

  嚴等人[63]提出了一個基於上下文圖形卷積網路的行人檢索框架。由於影象外觀特徵不足以區分不同的人,作者使用上下文資訊來擴充套件例項級特徵,以提高特徵的判別力和人物檢索的魯棒性。沉等人[64]提出了一種相似性引導的圖神經網路,它通過建立一個圖並使用這種關係來增強判別特徵的學習,來表示探針庫影象對(節點)之間的成對關係。這個更新的探針庫影象用於預測關係特徵以進行準確的相似性估計。

  表7的最後一組顯示了基於GCN的序列特徵學習方法在MARS、DukeMTMCVideoReIDiLIDS-VID和PRID-2011資料集上的實驗結果。從上表的結果來看,基於GCN的方法的實驗效能明顯優於其他序列特徵學習方法。特別是,CTL[174]在MARS上的Rank-1準確率為91.4%,mAP為86.7%。CTL利用CNNbackbone和關鍵點估計器從多個粒度的人體中提取語義區域性特徵作為圖節點。CTL有效挖掘與外觀資訊互補的綜合線索,增強表徵能力。

3.4.6對比和討論

  表7顯示了基於序列特徵學習的方法在MARS、DukeMTMC-VideoReID、iLIDS-VID和PRID-2011資料集上的實驗結果。一些研究人員使用GCN對視訊序列的時空關係進行建模,並取得了很好的效果。與光流、3DCNN和RNN或LSTM方法相比,基於時空注意力的方法可以獲得更好的實驗效能。AdaptiveGraph[62]、MGH[61]和STGCN[60]能夠在上述資料集上獲得較高的實驗結果,與以前的方法相比,準確性有所提高。

  基於序列特徵學習的方法的核心思想是融合來自多個維度的更多時空資訊,以減輕人重識別任務中的遮擋、光照和視點變化等一系列問題的影響。雖然光流可以提供視訊序列幀的上下文資訊,但它只表示相鄰影象的區域性動態,可能由於空間未對齊而引入噪聲。計算光流的過程非常耗時。3DCNN可以捕獲視訊序列中的時間和空間特徵資訊。雖然3DCNN可以實現更好的效能,但這些方法計算耗時且難以優化。RNN或LSTM可以提取視訊序列的時間特徵,並在研究人員中流行了一段時間。在Person Re-ID任務中,RNN或LSTM的時間資訊提取能力有限,並且由於複雜的網路結構[176]而在模型訓練中遇到困難。雖然引入temporalattention和spatialattention可以緩解連續切換不同攝像機檢視、光照變化和遮擋的問題,但由於不同幀中身體部位之間的時間關係不完全,影響了Person Re-ID的準確性考慮[60]。目前大部分Person Re-ID研究都是基於影象的,湧現了大量更接近現實世界的方法和資料集。與基於影象的方法相比,基於序列特徵學習的方法仍然具有很大的研究前景。

4、結論和未來方向

  對近年來基於深度學習的行人重識別方法進行了全面的調查,並進行了深入的討論。首先,我們總結了最近釋出的幾項行人Re-ID調查的主要貢獻,並討論了用於行人Re-ID基準的通用資料集。其次,我們全面回顧了當前基於深度學習的方法,這些方法按照度量學習和表徵學習分為四大類,包括深度度量學習、區域性特徵學習、生成對抗學習和序列特徵學習。四個類別根據其方法和動機,分析和討論該方法的每個子類別的優點和侷限性。這種分類更適合研究人員從他們的實際需求出發去探索這些方法。

  儘管現有的基於深度學習的方法在Person Re-ID任務中取得了不錯的效果,但它們仍然面臨著許多挑戰。目前應用於Person Re-ID訓練的資料集大部分是處理過的可見影象或視訊,但現實世界的資料往往表現出多種方式的組合。儘管半監督和無監督方法可以緩解高標註成本的問題,但它們的效能仍然不如監督方法。不同攝像機捕獲的行人影象存在域差異,在一個數據集上訓練的模型在另一個數據集上測試時可能會出現嚴重的效能下降。因為人們可能會換衣服或者不同的人可能穿著非常相似的衣服,所以行人的外觀特徵對於人ReID來說將變得不可靠。此外,如何提高模型檢索的速度和準確性對於現實世界的模型部署至關重要。隱私場景的增加從根本上限制了傳統的中心化Person Re-ID方法。大多數人重識別系統的檢測和重識別模組相互分離,難以擴充套件到實際應用。

  綜上所述,基於深度學習的Person Re-ID方法還有很多挑戰有待探索和研究。以下小節介紹瞭解決上述現有挑戰的潛在解決方案,以及未來研究方向的前景。

(1)跨模態人Re-ID。大多數現有的Re-ID方法在基於影象或視訊處理獲得的公開可用資料集上評估其效能。然而,現實世界資料的獲取是多種多樣的,資料可能表現為不同模態(可見光、紅外、深度圖和文字描述等)的組合。例如,在缺乏足夠的可見性資訊(如影象或視訊)的情況下,文字描述可以為行人Re-ID提供獨特的屬性輔助資訊。幾項研究工作[161,177]學習了有區別的跨模態視覺文字特徵,以便在基於描述的行人Re-ID中進行更好的相似性評估。由於可見光相機很難在黑暗環境中捕獲有效的外觀資訊,一些研究人員[178-182]使用熱紅外影象來學習豐富的視覺表示以進行跨模態匹配。現有的工作主要集中在通過對齊來自不同模態的特徵分佈來緩解模態差異。同時,如何將各種模態互補資訊結合起來也值得今後研究。

(2)高效能的半監督和無監督人Re-ID。由於跨多個攝像頭註釋人物影象的成本很高,一些研究人員[183-188]專注於行人ReID的半監督和無監督方法。這些方法旨在從未標記或標記最少的人影象中學習判別特徵。與監督學習相比,半監督和無監督方法減輕了對昂貴資料註釋的需求,並顯示出將行人Re-ID應用於實際應用的巨大潛力。

  一些半監督人Re-ID方法[189,190]利用目標域中的影象聚類或軌跡聚類來使模型適應新域。一些無監督的人Re-ID方法[183-185]使用軟標籤或多標籤來學習判別嵌入特徵。雖然缺乏現實的標籤學習判別特徵,但Person Re-ID方法在半監督和無監督場景中的表現仍然不如監督方法,但它們在提高模型的泛化能力方面仍然保持著重要的研究價值和意義[2].在未來的研究中,應該考慮更好的聚類或標籤分配策略來提高行人重識別的效能。

(3)域自適應Re-ID。現實世界中不同攝像機的背景、解析度和光照環境差異很大,干擾了行人識別特徵的學習,影響了Person Re-ID的效能。一些研究人員[45,47–49]將帶有身份標籤的影象從源域轉移到目標域以學習判別模型,但他們在很大程度上忽略了未標記的樣本和目標域中的大量樣本分佈。一些研究人員[155,191–194]使用聚類或圖匹配方法來預測目標域中的偽標籤以進行判別模型學習,但他們仍然面臨著準確預測硬樣本標籤的挑戰。領域適應對於在未知領域學習的行人Re-ID模型至關重要。因此,它仍然是未來的重要研究方向之一。

(4)3D空間中的Person Re-ID。在現實世界中,攝像機的空間位置是不確定的,新攝像機可能會臨時插入到現有的攝像機網路中。考慮到人們可能會換衣服或不同的人可能穿著非常相似的衣服,行人的外觀特徵對於Re-ID[67]將變得不可靠。3D結構不依賴2D影象的外觀資訊可以有效緩解這一限制。然而,行人的3D點雲資料的獲取需要額外的輔助模型。一些研究人員[66,67]直接從2D影象中提取3D形狀嵌入,通過對齊2D和3D區域性特徵來獲得更穩健的結構和外觀資訊,或者將3D模型平面化回2D影象以在2D空間中進行表示學習以實現資料增強目的。儘管上述研究取得了很好的實驗結果,但2D資料空間固有地限制了模型理解人的3D幾何資訊。因此,在3D空間中進一步探索Person Re-ID方法仍然是未來的一個重要研究方向。

(5)快速人重識別。目前大多數人Re-ID方法主要集中在先驗知識或設計複雜的網路架構以學習魯棒的身份不變特徵表示。這些方法使用複雜的網路模型來提取高維特徵以提高模型效能。但是,上述方法使用歐幾里德距離計算特徵的相似度並通過快速排序得到排名表,隨著檢索時間的大小,排名會隨著檢索時間的增加而增加。畫廊圖書館增加。這種檢索方法將非常耗時,使模型不適合實際應用。因此,一些研究人員[195-197]考慮引入雜湊來提高檢索速度。可以通過補充長和短雜湊碼來實現從粗到細(CtF)[196]更快的行人Re-ID檢索,以獲得更快和更好的準確性。趙等人[197]提出了顯著性引導的迭代非對稱相互雜湊(SIAMH),以實現高質量的雜湊碼生成和快速的特徵提取。但是,如何設計具體的檢索策略,減少模型間的資訊冗餘,提高檢索速度和準確率,仍需進一步研究。

(6)去中心化學習者Re-ID。大多數現有的Person Re-ID方法都使用集中式學習正規化,這需要從不同的攝像機檢視或域中收集所有訓練資料以進行集中式訓練。儘管這些有監督或無監督的方法取得了重大進展,但集中式人Re-ID學習忽略了包含大量個人和私人資訊的人的影象,這些資訊可能不允許共享到中央資料集中。隨著隱私場景的增加,它可以從根本上限制現實世界中的中心化學習人Re-ID方法。最近的幾項工作[198-201]試圖通過分散學習來解決上述問題。這些方法要麼通過聯邦學習構建全域性泛化模型伺服器,不需要訪問本地訓練資料和跨域資料共享,要麼選擇性地進行知識聚合以優化模型個性化和去中心化泛化之間的權衡。ID。在未來的工作中,如何在學習全域性通用模型的同時確保理解跨域資料異質性仍然具有挑戰性。

(7)端到端的人Re-ID系統。如本文介紹中的圖2所示,當前大多數人Re-ID系統中的人檢測和重新識別是兩個獨立的模組。Person Re-ID任務使用預設情況下已經檢測到的正確行人,但一些實際的開放世界應用程式需要從原始影象或視訊中進行端到端的行人搜尋[202]。兩階段端到端行人重新識別框架是最常見的Re-ID系統之一,它系統地評估了結合不同檢測器和Re-ID模型的優勢和侷限性[112]。蒙賈爾等人[203]提出了一種查詢引導的端到端行人搜尋網路(QEEPS)來加入行人檢測和重新識別。

  此外,端到端的人Re-ID也被廣泛用於多目標多攝像機跟蹤(MTMC跟蹤)[110,204,205]。Person Re-ID演算法不僅依賴於準確的行人檢測演算法,還依賴於檢測到的未標記行人,這仍然是當前的挑戰。因此,如何將行人檢測和重識別有效地結合起來,設計一個端到端的行人Re-ID系統,也是未來研究人員需要關注的一個方向。