(2021TPAMI深度學習行人重識別綜述與展望)Deep learning-based person re-identification methods A survey and outlook of recent works

阿新 • • 發佈：2022-04-13

1、引言
2、封閉世界的行人重識別
3、開放世界的行人再識別
4、展望：下一個時代的重新識別

5、結束語
應用材料

Deep learning-based person re-identification methods A survey and outlook of recent works
深度學習行人重識別綜述與展望

論文地址：https://arxiv.org/abs/2001.04193
程式碼：https://github.com/mangye16/ReID-Survey
作者知乎講解：https://zhuanlan.zhihu.com/p/342249413

摘要：行人重識別(Re-ID)旨在通過多個不重疊的攝像頭檢索感興趣的行人。隨著深度神經網路的進步和智慧視訊監控需求的增加，它在計算機視覺社群中獲得了顯著增加的興趣。通過剖析開發行人Re-ID系統所涉及的元件，我們將其分為封閉世界和開放世界設定。廣泛研究的封閉世界環境通常應用於各種以研究為導向的假設，並在許多資料集上使用深度學習技術取得了令人鼓舞的成功。我們首先從深度特徵表示學習、深度度量學習和ranking優化三個不同的角度對封閉世界的行人Re-ID進行了全面的概述和深入分析。隨著封閉世界設定下的效能飽和，Person Re-ID的研究重點最近轉移到了開放世界設定，面臨著更具挑戰性的問題。該設定更接近特定場景下的實際應用。我們從五個不同方面總結了開放世界的Re-ID。通過分析現有方法的優勢，我們設計了一個強大的AGW基線，在四個不同的Re-ID任務的十二個資料集上實現了最先進或至少可比的效能。同時，我們為行人重識別引入了一個新的評估指標（mINP），表示找到所有正確匹配的成本，這為評估重識別系統的實際應用提供了額外的標準。最後，討論了一些重要但未被充分調查的開放性問題。
關鍵詞：行人重識別、行人檢索、文獻調查、評估指標、深度學習

1、引言

行人重新識別(Re-ID)已被廣泛研究為跨非重疊攝像機[1]、[2]的特定行人檢索問題。給定一個查詢感興趣的人，Re-ID的目標是確定此人是否在不同的相機拍攝的不同時間出現在另一個地方，或者甚至是同一相機在不同的瞬間[3]。查詢人可以用影象[4]、[5]、[6]、視訊序列[7]、[8]，甚至是文字描述[9]、[10]來表示。由於公共安全的迫切需求和越來越多的監控攝像頭，Person Re-ID在智慧監控系統中勢在必行，具有重大的研究影響和現實意義。

由於存在不同的視點[11]、[12]、不同的低影象解析度[13]、[14]、光照變化[15]、不受約束的姿勢[16]、[17]、[18]，遮擋[19]，[20]，異構模式[10]，[21]，複雜的相機環境，背景雜波[22]，不可靠的邊界框生成等，Re-ID是一項具有挑戰性的任務，。這些導致不同的變化和不確定性。此外，對於實際模型部署，動態更新的相機網路[23]、[24]、具有高效檢索的大規模相簿[25]、組不確定性[26]、顯著的領域轉移[27]、看不見的測試場景[28]、增量模型更新[29]和換衣服[30]也大大增加了難度。這些挑戰導致Re-ID仍然是未解決的問題。早期的研究工作主要集中在具有身體結構的手工特徵構建[31]、[32]、[33]、[34]、[35]或距離度量學習[36]、[37]、[38]、[39]、[40]、[41]。隨著深度學習的進步，Person Re-ID在廣泛使用的基準測試[5]、[42]、[43]、[44]上取得了令人鼓舞的表現。然而，以研究為導向的場景與實際應用之間仍有很大差距[45]。這促使我們進行全面調查，為不同的Re-ID任務開發強大的基線，並討論幾個未來的方向。

儘管一些調查也總結了深度學習技術[2]、[46]、[47]，但我們的調查有三個主要區別：1）我們通過討論現有深度學習方法的優勢和限制，分析最先進的技術。這為未來的演算法設計和新主題探索提供了見解。2）我們為未來的發展設計了一個新的強大基線（AGW：Attention Generalized mean pooling with Weighted triplet loss）和一個新的評估指標（mINP：mean Inverse Negative Penalty）。AGW在12個數據集上針對四種不同的Re-ID任務實現了最先進的效能。mINP為現有CMC/mAP提供了一個補充指標，表明找到所有正確匹配的成本。3）我們嘗試討論幾個重要的研究方向和未充分研究的開放問題，以縮小封閉世界和開放世界應用之間的差距，向現實世界的Re-ID系統設計邁出一步。

除非另有說明，本次調查中的Person Re-ID是指從計算機視覺角度跨多個監控攝像頭的行人檢索問題。

一般來說，針對特定場景構建person Re-ID系統需要五個主要步驟（如圖1所示）：

1)步驟1：原始資料收集：從監控攝像頭獲取原始視訊資料是實際視訊調查的首要要求。這些攝像機通常位於不同環境下的不同地方[48]。最有可能的是，這些原始資料包含大量複雜且嘈雜的背景雜波。

2）第2步：邊界框生成：從原始視訊資料中提取包含人物影象的邊界框。通常，在大規模應用中手動裁剪所有人物影象是不可能的。邊界框通常通過行人檢測[49]、[50]或跟蹤演算法[51]、[52]獲得。

3）第3步：訓練資料註釋：註釋跨相機標籤。由於較大的跨相機變化，訓練資料註釋通常對於判別性Re-ID模型學習是必不可少的。在存在大域轉移[53]的情況下，我們經常需要在每個新場景中對訓練資料進行註釋。

4)第4步：模型訓練：用之前帶註釋的人物影象/視訊訓練一個有判別力和魯棒性的Re-ID模型。這一步是開發Re-ID系統的核心，也是文獻中研究最廣泛的範例。已經開發了廣泛的模型來處理各種挑戰，主要集中在特徵表示學習[54]、[55]、距離度量學習[56]、[57]或它們的組合上。

5）第5步：行人檢索：測試階段進行行人檢索。給定一個感興趣的人（查詢）和一個畫廊集，我們使用在前一階段學習的Re-ID模型提取特徵表示。通過對計算的查詢到相簿的相似度進行排序，獲得檢索到的排名列表。一些方法還研究了排名優化以提高檢索效能[58]、[59]。

根據上述五個步驟，我們將現有的Re-ID方法分為兩大趨勢：封閉世界和開放世界設定，如表1所示。逐步比較以下五個方面：

1）單-模態與異構資料：對於步驟1中的原始資料收集，所有人都由封閉世界設定中的單模態可見相機捕獲的影象/視訊表示[5]、[8]、[31]，[42]、[43]、[44]。然而，在實際的開放世界應用中，我們可能還需要處理異構資料，例如紅外影象[21]、[60]、草圖[61]、深度影象[62]，甚至是文字描述[63]。這激發了第3.1節中的異構Re-ID。

2)Bounding Box Generation vs. Raw Images/Videos：對於Step 2中的bounding box生成，封閉世界person Re-ID通常基於生成的bounding box進行訓練和測試，其中bounding box主要包含person外觀資訊。相比之下，一些實際的開放世界應用程式需要從原始影象或視訊中進行端到端的行人搜尋[55]、[64]。這導致了另一個開放世界主題，即第3.2節中的端到端行人搜尋。

3）足夠的帶註釋的資料與不可用/有限的標籤：對於步驟3中的訓練資料註釋，封閉世界的行人Re-ID通常假設我們有足夠的帶註釋的訓練資料來進行有監督的Re-ID模型訓練。然而，在每個新環境中為每個相機進行標籤標註既費時又費力，成本也很高。在開放世界場景中，我們可能沒有足夠的註釋資料（即有限的標籤）[65]，甚至沒有任何標籤資訊[66]。這激發了第3.3節中對無監督和半監督Re-ID的討論。

4）正確註釋與嘈雜註釋：對於第4步，現有的封閉世界行人Re-ID系統通常假設所有註釋都是正確的，並帶有乾淨的標籤。然而，由於註釋錯誤（即標籤噪聲）或不完美的檢測/跟蹤結果（即樣本噪聲、Partial Re-ID[67]），註釋噪聲通常是不可避免的。這導致了第3.4節中在不同噪聲型別下對噪聲魯棒性行人Re-ID的分析。

5)Query Exists in Gallery vs. Open-set：在行人檢索階段（第5步），大多數現有的封閉世界人物識別工作都假設查詢必須在通過計算CMC[68]和mAP [5]設定的畫廊中進行。然而，在許多情況下，查詢人可能不會出現在相簿集[69]、[70]中，或者我們需要執行驗證而不是檢索[26]。這將我們帶到了第3.5節中的開放集行人Re-ID。

該調查首先在第 2 節中介紹了在封閉世界設定下廣泛研究的行人Re-ID。在第2.4節中對資料集和最新技術進行了詳細審查。然後我們在第3節中介紹了開放世界的行人再識別。第4節介紹了對未來Re-ID的展望，包括一個新的評估指標（第4.1節）、一個新的強大的AGW基線（第4.2節）。我們討論了幾個未充分調查的未解決問題以供未來研究（第4.3節）。結論將在第5節中得出。結構概述見補充。

2、封閉世界的行人重識別

本節概述了封閉世界的行人Re-ID。如第1節所述，此設定通常具有以下假設：1)人的外表由單模態可見相機捕獲，通過影象或視訊；2）人由bounding box表示，其中大部分bounding box區域屬於同一個身份；3)訓練有足夠的帶註釋的訓練資料用於有監督的判別式Re-ID模型學習；4)註釋一般是正確的；5)查詢人必須出現在相簿集中。通常，標準的封閉世界Re-ID系統包含三個主要元件：特徵表示學習（第2.1節），專注於開發特徵構建策略；深度度量學習（§2.2），旨在設計具有不同損失函式或採樣策略的訓練目標；Ranking優化（第2.3節），專注於優化檢索到的排名列表。第2.4.2節提供了資料集和SOTA的概述以及深入分析。

2.1 特徵表示學習

我們首先討論了封閉世界行人Re-ID中的特徵學習策略。有四個主要類別（如圖2所示）：a）全域性特徵（第2.1.1節），它為每個人的影象提取全域性特徵表示向量，而無需額外的註釋線索[55]；b)區域性特徵（第2.1.2節），它聚合部件級區域性特徵以制定每個人影象的組合表示[75]、[76]、[77]；c)輔助特徵（第2.1.3節），它使用輔助資訊改進了特徵表示學習，例如屬性[71]、[72]、[78]、GAN生成的影象[42]等。d)視訊特徵（第2.1.4節），它使用多個影象幀和時間資訊[73]、[74]學習基於視訊的Re-ID[7]的視訊表示。我們還回顧了第2.1.5節中行人重識別的幾個特定架構設計。

2.1.1 全域性特徵表示學習

全域性特徵表示學習為每個人的影象提取一個全域性特徵向量，如圖2(a)所示。由於深度神經網路最初應用於影象分類[79]、[80]，因此早期將先進的深度學習技術整合到Person Re-ID領域時，全域性特徵學習是首選。

為了捕捉全域性特徵學習中的細粒度線索，在[81]中開發了一個由單影象表示(SIR)和跨影象表示(CIR)組成的聯合學習框架，使用特定的子網路進行triplet loss訓練。廣泛使用的ID判別嵌入(IDE)模型[55]通過將每個身份視為不同的類，將訓練過程構建為多類分類問題。它現在廣泛用於Re-ID社群[42]、[58]、[77]、[82]、[83]。錢等人[84]開發了一種多尺度深度表示學習模型來捕捉不同尺度的判別線索。

注意力資訊。注意力方案已在文獻中得到廣泛研究，以增強表示學習[85]。1）第一組：行人影象內的注意力。典型的策略包括畫素級注意[86]和通道特徵響應重新加權[86]、[87]、[88]、[89]或背景抑制[22]。空間資訊整合在[90]中。2)第2組：關注多個人物影象的注意力。[91]中提出了一種上下文感知的注意力特徵學習方法，它結合了序列內和序列間的注意力，用於成對的特徵對齊和細化。在[92]、[93]中添加了注意力一致性屬性。組相似性[94]、[95]是另一種利用跨影象注意力的流行方法，它涉及用於區域性和全域性相似性建模的多個影象。第一組主要增強對錯位/不完美檢測的魯棒性，第二組通過挖掘多個影象之間的關係來改進特徵學習。

2.1.2 區域性特徵表示學習

它學習部分/區域聚合特徵，使其能夠抵抗錯位[77]，[96]。身體部位要麼通過人體解析/姿勢估計自動生成（第1組），要麼通過大致水平劃分（第2組）自動生成。

通過自動身體部位檢測，流行的解決方案是結合全身表示和區域性特徵[97]、[98]。具體來說，多通道聚合[99]、多尺度上下文感知卷積[100]、多級特徵分解[17]和雙線性池化[97]旨在改善區域性特徵學習。在[98]中還研究了部件級相似性組合，而不是特徵級融合。另一種流行的解決方案是增強對背景雜波的魯棒性，使用姿勢驅動匹配[101]、姿勢引導部件注意模組[102]、語義部件對齊[103]、[104]。

對於水平劃分的區域特徵，在基於部件的卷積基線(PCB)[77]中學習了多個部分級分類器，它現在作為當前最先進的[28]，[105]，[106]中強大的部件特徵學習基線。為了捕捉多個身體部位之間的關係，Siamese Long Short-Term Memory (LSTM)架構[96]、二階非區域性注意力[107]、互動和聚合(IA)[108]旨在加強特徵學習。

第一組使用人類解析技術來獲得語義上有意義的身體部位，這提供了很好的部件特徵。然而，它們需要一個額外的姿態檢測器，並且容易出現噪聲姿態檢測[77]。

第二組採用均勻劃分得到橫條紋部分，比較靈活，但對重度遮擋和大背景雜波比較敏感。

2.1.3 輔助特徵表示學習

輔助特徵表示學習通常需要額外的註釋資訊（例如語義屬性[71]）或生成/增強的訓練樣本來加強特徵表示[19]、[42]。

語義屬性。[72]中引入了聯合身份和屬性學習基線。蘇等人[71]通過結合預測的語義屬性資訊，提出了一個深度屬性學習框架，增強了半監督學習方式中特徵表示的泛化性和魯棒性。語義屬性和注意方案都被結合起來以改進部件特徵學習[109]。[110]中還採用語義屬性進行視訊Re-ID特徵表示學習。它們還被用作無監督學習中的輔助監督資訊[111]。

視點資訊。視點資訊也被用來增強特徵表示學習[112]，[113]。多級分解網路（MLFN）[112]還嘗試在多個語義級別上學習身份判別和檢視不變的特徵表示。劉等人[113]提取檢視通用和檢視特定學習的組合。在視點感知特徵學習中，[114]中結合了角度正則化。

域資訊。域引導丟棄（DGD）演算法[54]旨在自適應地挖掘域可共享和域特定的神經元，用於多域深度特徵表示學習。Lin等人[115]將每個相機視為一個不同的域，提出了一種多相機一致匹配約束，以在深度學習框架中獲得全域性最優表示。類似地，相機檢視資訊或檢測到的相機位置也被應用在[18]中，以通過相機特定的資訊建模來改進特徵表示。

GAN生成。本節討論使用GAN生成的影象作為輔助資訊。鄭等人[42]開始首次嘗試將GAN技術應用於Person Re-ID。它使用生成的人物影象改進了有監督的特徵表示學習。姿勢約束被納入[116]以提高生成的人物影象的質量，生成具有新姿勢變體的人物影象。在[117]中設計了一種姿勢歸一化影象生成方法，它增強了對姿勢變化的魯棒性。相機樣式資訊[118]也整合在影象生成過程中，以解決跨相機的變化。一個聯合判別和生成學習模型[119]分別學習外觀和結構程式碼以提高影象生成質量。使用GAN生成的影象也是無監督域自適應Re-ID[120]、[121]中廣泛使用的方法，近似於目標分佈。

資料增強。對於Re-ID，自定義操作是隨機調整大小、裁剪和水平翻轉[122]。此外，生成對抗性遮擋樣本[19]以增加訓練資料的變化。[123]中提出了一種類似的隨機擦除策略，向輸入影象新增隨機噪聲。一批DropBlock[124]隨機地在特徵圖中刪除一個區域塊以加強注意力集中的特徵學習。巴克等人[125]生成在不同光照條件下渲染的虛擬人。這些方法通過增強樣本豐富了監督，提高了測試集的泛化性。

2.1.4 視訊特徵表示學習

基於視訊的Re-ID是另一個熱門話題[126]，其中每個人都由具有多個幀的視訊序列表示。由於豐富的外觀和時間資訊，它在ReID社群中引起了越來越多的興趣。這也給使用多張影象的視訊特徵表示學習帶來了額外的挑戰。

主要挑戰是準確捕獲時間資訊。[127]為基於視訊的行人Re-ID設計了一種迴圈神經網路架構，它聯合優化了時間資訊傳播的最終迴圈層和時間池化層。在[128]中開發了一種用於空間和時間流的加權方案。嚴等人[129]提出了一種漸進/順序融合框架來聚合幀級人體區域表示。在[110]中，語義屬性也被用於具有特徵分離和幀重新加權的視訊Re-ID。聯合聚合幀級特徵和時空外觀資訊對於視訊表示學習[130]、[131]、[132]至關重要。

另一個主要挑戰是視訊中不可避免的異常跟蹤幀。在聯合空間和時間注意力池化網路（ASTPN）[131]中選擇資訊幀，並將上下文資訊整合在[130]中。受共同分割啟發的注意力模型[132]通過相互一致的估計來檢測多個視訊幀中的顯著特徵。採用多樣性正則化[133]來挖掘每個視訊序列中的多個有區別的身體部位。採用仿射殼來處理視訊序列中的異常幀[83]。一項有趣的工作[20]利用多個視訊幀來自動完成遮擋區域。這些工作表明，處理噪聲幀可以極大地改善視訊表示學習。

處理不同長度的視訊序列也具有挑戰性。Chen等人[134]將長視訊序列分成多個短片段，聚合排名靠前的片段以學習緊湊的嵌入。剪輯級學習策略[135]利用空間和時間維度的注意線索來產生強大的剪輯級表示。短期和長期關係[136]都整合在一個自注意力方案中。

2.1.5 架構設計

將Person Re-ID 作為一個特定的行人檢索問題，現有的大多數工作都採用為影象分類而設計的網路架構[79]、[80]作為主幹。一些工作試圖修改主幹架構以實現更好的Re-ID功能。對於廣泛使用的ResNet50主幹[80]，重要的修改包括將最後一個卷積stripe/大小更改為1[77]，在最後一個池化層[77]中採用自適應平均池化，以及在池化後新增具有批量歸一化的瓶頸層[82]。

準確性是特定Re-ID網路架構設計以提高準確性的主要關注點，Li等人[43]通過設計一個濾波器配對神經網路(FPNN)開始了第一次嘗試，該網路與部分判別資訊挖掘共同處理錯位和遮擋。王等人[89]提出了一個帶有專門設計的WConv層和Channel Scaling層的BraidNet。WConv層提取兩個影象的差異資訊以增強對未對齊的魯棒性，通道縮放層優化每個輸入通道的縮放因子。多級因子分解網路（MLFN）[112]包含多個堆疊塊以在特定級別對各種潛在因子進行建模，並且動態選擇因子以制定最終表示。開發了一種具有卷積相似度模組的高效全卷積連體網路[137]，以優化多級相似度測量。通過使用深度卷積可以有效地捕獲和優化相似度。

效率是Re-ID架構設計的另一個重要因素。一個高效的小規模網路，即OmniScale網路（OSNet）[138]，是通過結合逐點卷積和深度卷積來設計的。為了實現多尺度特徵學習，引入了由多個卷積流組成的殘差塊。

隨著對自動機器學習的興趣日益增加，提出了Auto-ReID[139]模型。Auto-Reid基於一組基本架構元件提供高效且有效的自動化神經架構設計，使用部分感知模組來捕獲具有判別性的區域性ReID特徵。這為探索強大的特定領域架構提供了潛在的研究方向。

2.2 深度度量學習

在深度學習時代之前，度量學習已經通過學習馬氏距離函式[36]、[37]或投影矩陣[40]得到了廣泛的研究。度量學習的作用已被損失函式設計所取代，以指導特徵表示學習。我們將首先回顧第
2.2.1節中廣泛使用的損失函式，然後在第2.2.2節總結具有特定抽樣設計的訓練策略。

2.2.1 Loss函式設計

本次調查僅關注為深度學習設計的損失函式[56]。為手工系統設計的距離度量學習的概述可以在[2]、[143]中找到。在行人Re-ID的文獻中，有三種廣泛研究的損失函式及其變體，包括身份損失、驗證損失和三元組損失。圖3顯示了三個損失函式的圖示。

身份Loss。它將person Re-ID的訓練過程視為影象分類問題[55]，即每個身份都是一個不同的類。在測試階段，採用池化層或嵌入層的輸出作為特徵提取器。給定帶有標籤yi的輸入影象xi，xi被識別為類別yi的預測概率用softmax函式編碼，由p(yi|xi)表示。
然後通過交叉熵計算身份損失

其中n表示每批中的訓練樣本數。身份損失已廣泛用於現有方法[19]、[42]、[82]、[92]、[95]、[106]、[118]、[120]、[140]、[144]。一般來說，在訓練過程中很容易訓練和自動挖掘困難樣本，如[145]所示。一些工作還研究了softmax變體[146]，例如[147]中的球體損失和[95]中的AMsoftmax。另一種簡單而有效的策略，即標籤平滑[42]、[122]，通常整合到標準的softmax交叉熵損失中。其基本思想是避免模型擬合過度自信的註釋標籤，提高泛化性[148]。

驗證損失。它使用對比損失[96]、[120]或二元驗證損失[43]、[141]優化成對關係。對比損失改進了相對成對距離比較，公式為

其中dij表示兩個輸入樣本xi和xj的嵌入特徵之間的歐幾里得距離。δ_ij是一個二元標籤指示符（當xi和xj屬於同一身份時δ_ij=1，否則δ_ij=0）。ρ是一個邊距引數。有幾種變體，例如，與[81]中的排序SVM的成對比較。

二進位制驗證[43]、[141]區分輸入影象對的正負。通常，差分特徵fij由fij=(fj-fi)2[141]獲得，其中fi和fj是兩個樣本xi和xj的嵌入特徵。驗證網路對差分特徵進行分類分為正面或負面。我們使用p(δ_ij |f_ij)來表示輸入對（xi和xj）被識別為δ_ij（0或1）的概率。具有交叉熵的驗證損失為

驗證通常與身份損失相結合，以提高效能[94]、[96]、[120]、[141]。

Triplet Loss。它將Re-ID模型訓練過程視為檢索排序問題。基本思想是正對之間的距離應該比負對小一個預定義的邊距[57]。通常，一個三元組包含一個錨樣本xi、一個具有相同身份的正樣本xj和一個來自不同身份的負樣本xk。帶邊距引數的三元組損失表示為

其中d(·)測量兩個樣本之間的歐幾里得距離。如果我們直接優化上述損失函式，大部分容易三元組將主導訓練過程，導致可辨別性有限。為了緩解這個問題，已經設計了各種資訊豐富的三元組挖掘方法[14]、[22]、[57]、[97]。基本思想是選擇資訊豐富的三元組[57]、[149]。具體來說，在[149]中引入了具有權重約束的適度正挖掘，直接優化了特徵差異。赫爾曼斯等人[57]證明每個訓練批次中最難的正負挖掘有利於判別式Re-ID模型學習。一些方法還研究了用於資訊三元組挖掘的點設定相似性策略[150]，[151]。這通過軟硬挖掘方案增強了對異常值樣本的魯棒性。

為了進一步豐富三元組監督，在[152]中開發了一個四元組深度網路，其中每個四元組包含一個錨樣本、一個正樣本和兩個挖掘的負樣本。四聯體是用基於邊際的線上硬負挖掘來制定的。優化四元組關係會導致更小的類內變異和更大的類間變異。

Triplet loss和identity loss的結合是深度Re-ID模型學習最流行的解決方案之一[28]、[87]、[90]、[93]、[103]、[104]、[116]、[137]、[142]、[153]、[154]。這兩個元件對於判別特徵表示學習是互惠互利的。

OIM Loss。除了上述三種損失函式外，還設計了一種線上例項匹配（OIM）損失[64]，並採用了記憶體庫方案。記憶體庫{vk,k=1,2,…,c}包含儲存的例項特徵，其中c表示類號。然後OIM損失由下式表示

其中vi表示yi類對應的儲存記憶特徵，並且是控制相似性空間的溫度引數[145]。v_i^T f_i衡量線上例項匹配分數。進一步包括與未標記身份的記憶特徵集的比較，以計算分母[64]，處理大量非目標身份的例項。這種記憶方案也被用於無監督域自適應Re-ID[106]。

2.2.2 訓練策略

批量取樣策略在判別式Re-ID模型學習中起著重要作用。這是具有挑戰性的，因為每個身份的註釋訓練影象的數量變化很大[5]。同時，嚴重不平衡的正負樣本對增加了訓練策略設計的額外難度[40]。

處理不平衡問題最常用的訓練策略是身份抽樣[57]、[122]。對於每個訓練批次，隨機選擇一定數量的身份，然後從每個選定的身份中抽取幾張影象。這種批量取樣策略保證了資訊豐富的正負挖掘。

為了處理正負之間的不平衡問題，自適應取樣是調整正負樣本貢獻的流行方法，例如取樣率學習（SRL）[89]，課程取樣[87]。另一種方法是樣本重新加權，使用樣本分佈[87]或相似性差異[52]來調整樣本權重。[155]中設計了一個有效的參考約束，將成對/三元組相似度轉換為樣本到參考相似度，解決不平衡問題並增強可辨別性，這對異常值也具有魯棒性。

為了自適應地組合多個損失函式，多重損失動態訓練策略[156]自適應地重新加權身份損失和三重損失，提取它們之間共享的適當分量。這種多損失訓練策略可以帶來一致的效能提升。

2.3 排序優化

排序優化對於提高測試階段的檢索效能起著至關重要的作用。給定一個初始排名列表，它通過自動相簿到相簿相似性挖掘[58]、[157]或人類互動[158]、[159]優化排名順序。Rank/Metric fusion[160]、[161]是另一種流行的方法，用於通過多個排名列表輸入來提高排名效能。

2.3.1 重排名

重新排序的基本思想是利用畫廊間的相似度來優化初始排名列表，如圖4所示。在[157]中提出了排名靠前的相似性拉動和排名靠後的不相似性推送。廣泛使用的k-reciprocal reranking[58]挖掘上下文資訊。[25]中應用了類似的上下文資訊建模思想。白等人[162]利用底層流形的幾何結構。通過整合跨鄰域距離，引入了一種擴充套件的跨鄰域重排序方法[18]。區域性模糊重新排序[95]採用聚類結構來改進鄰域相似度測量。

查詢自適應。考慮到查詢的差異，一些方法設計了查詢自適應檢索策略來代替統一的搜尋引擎來提高效能[163]，[164]。安迪等人[163]提出了一種使用區域性保持投影的查詢自適應重新排序方法。[164]中提出了一種有效的線上區域性度量自適應方法，該方法通過為每個探針挖掘負樣本來學習嚴格的區域性度量。

人際交往。它涉及使用人工反饋來優化排名列表[158]。這在重新排序過程中提供了可靠的監督。[159]中提出了一種混合人機增量學習模型，該模型從人的反饋中累積學習，提高了實時的Re-ID排名效能。

2.3.2 排名融合

排名融合利用通過不同方法獲得的多個排名列表來提高檢索效能[59]。鄭等人[165]在“L”形觀察之上提出了一種查詢自適應後期融合方法來融合方法。在[59]中開發了一種利用相似性和相異性的秩聚合方法。Person Re-ID中的等級融合過程被表述為使用圖論[166]的基於共識的決策問題，將多個演算法獲得的相似度得分對映到帶有路徑搜尋的圖中。最近為度量融合設計了統一整合擴散（UED）[161]。UED保留了三種現有融合演算法的優勢，並通過新的目標函式和推導進行了優化。在[160]中也研究了度量整合學習。

2.4 資料集和評估

2.4.1 資料集和評估度量

資料集。我們首先回顧了封閉世界環境中廣泛使用的資料集，包括11個影象資料集（VIPeR[31]、iLIDS[167]、GRID[168]、PRID2011[126]、CUHK0103[43]、Market-1501[5],DukeMTMC[42],Airport[169]和MSMT17[44])和7個視訊資料集(PRID-2011[126],iLIDS-VID[7],MARS[8],Duke-Video[144],Duke-Tracklet[170]、LPW[171]和LS-VID[136]）。這些資料集的統計資料如表2所示。本次調查僅關注深度學習方法的一般大規模資料集。可以在[169]及其網站1（https://github.com/NEU-Gou/awesome-reid-dataset）中找到對Re-ID資料集的全面總結。就近年來的資料集收集而言，可以提出幾點意見：

1)資料集規模（#image和#ID）迅速增加。一般來說，深度學習方法可以從更多的訓練樣本中受益。這也增加了封閉世界行人Re-ID所需的註釋難度。2）攝像頭數量也大幅增加，以逼近實際場景中的大規模攝像頭網路。這也為動態更新網路中的模型泛化性帶來了額外的挑戰。3）邊界框的生成通常是自動檢測/跟蹤的，而不是手動裁剪的。這模擬了具有跟蹤/檢測錯誤的真實場景。

評估指標。為了評估Re-ID系統，累積匹配特性(CMC)[68]和平均平均精度(mAP)[5]是兩個廣泛使用的測量方法。

CMC-k（又名，Rank-k匹配精度）[68]表示正確匹配出現在排名前k的檢索結果中的概率。當每個查詢只存在一個基本事實時，CMC是準確的，因為它只考慮評估過程中的第一個匹配項。但是，畫廊集通常包含大型相機網路中的多個ground truths，CMC不能完全反映模型跨多個相機的可辨別性。

另一個指標，即平均平均精度（mAP）[5]，衡量了多個真實情況的平均檢索效能。它最初廣泛用於影象檢索。對於Re-ID評估，它可以解決兩個系統在搜尋第一個基本事實時表現相同的問題（可能很容易匹配，如圖4所示），但對於其他硬匹配具有不同的檢索能力。

考慮到訓練Re-ID模型的效率和複雜性，最近的一些工作[138]、[139]還報告了每秒浮點運算元（FLOPs）和網路引數大小作為評估指標。當訓練/測試裝置的計算資源有限時，這兩個指標至關重要。

2.4.2 深入分析 State-of-The-Arts

我們從基於影象和基於視訊的角度回顧了最先進的技術。我們包括過去三年在頂級CV場所發表的方法。

基於影象的Re-ID。基於影象的Re-ID2（https://paperswithcode.com/task/person-re-identification）已經發表了大量論文。我們主要回顧了2019年發表的作品以及2018年的一些代表性作品。具體包括PCB[77]、MGN[172]、PyrNet[6]、Auto-ReID[139]、ABD-Net[173]、BagTricks[122]、OSNet[138]、DGNet[119]、SCAL[90]、MHN[174]、P2Net[104]、BDB[124]、SONA[107]、SFT[95]、ConsAtt[93]、DenseS[103]、Pyramid[156]、IANet[108]、VAL[114]。我們總結了四個資料集的結果（圖5）。該概述激發了五個主要見解，如下所述。

首先，隨著深度學習的進步，大多數基於影象的Re-ID方法在廣泛使用的Market-1501資料集上實現了比人類更高的rank-1準確率（93.5%[175]）。特別是，VAL[114]在Market-1501資料集上獲得了91.6%的最佳mAP和96.2%的Rank-1準確度。VAL的主要優點是使用視點資訊。使用重新排序或度量融合時可以進一步提高效能。在這些封閉世界資料集上深度學習的成功也促使人們將重點轉移到更具挑戰性的場景，即大資料量[136]或無監督學習[176]。

其次，部件級級特徵學習有利於判別式Re-ID模型學習。全域性特徵學習直接學習整個影象的表示，沒有部件約束[122]。當人檢測/跟蹤可以準確定位人體時，它是有區別的。當人物影象遭受大背景雜亂或嚴重遮擋時，部分級特徵學習通常通過挖掘有區別的身體區域來獲得更好的效能[67]。由於其在處理錯位/遮擋方面的優勢，我們觀察到最近開發的大多數最先進的方法都採用了特徵聚合正規化，結合了部分級和全身特徵[139]、[156]。

第三，注意力有利於區分性的Re-ID模型學習。我們觀察到在每個資料集上實現最佳效能的所有方法（ConsAtt[93]、SCAL[90]、SONA[107]、ABD-Net[173]）都採用了注意力方案。注意力捕捉不同卷積通道、多個特徵圖、分層級、不同身體部位/區域甚至多個影象之間的關係。同時，判別性[173]、多樣化[133]、一致[93]和高階[107]屬性被併入以增強注意力特徵學習。考慮到強大的注意力方案和Re-ID問題的特殊性，專注的深度學習系統很有可能繼續主導Re-ID社群，並具有更多特定領域的屬性。

第四，多損失訓練可以改善Re-ID模型的學習。不同的損失函式從多檢視的角度優化網路。結合多個損失函式可以提高效能，最先進的方法中的多重損失訓練策略證明了這一點，包括ConsAtt[93]、ABD-Net[173]和SONA[107]。此外，[156]中設計了一種動態多損失訓練策略，以自適應地整合兩個損失函式。身份損失和三元組損失與硬挖掘相結合是首選。此外，由於不平衡問題，樣本加權策略通常通過挖掘資訊豐富的三元組來提高效能[52]、[89]。

最後，由於資料集規模不斷擴大、環境複雜、訓練樣本有限，還有很大的改進空間。例如，新發布的MSMT17資料集[44]上的Rank-1準確率（82.3%）和mAP（60.8%）遠低於Market-1501（Rank1：96.2%和mAP91.7%）和DukeMTMC（Rank-1：91.6%和mAP84.5%）。在其他一些訓練樣本有限的具有挑戰性的資料集上（例如，GRID[168]和VIPeR[31]），效能仍然非常低。此外，Re-ID模型通常在跨資料集評估[28]、[54]中受到嚴重影響，並且在對抗性攻擊下效能急劇下降[177]。我們樂觀地認為，Person Re-ID將會有重要的突破，具有更高的可辨別性、魯棒性和普遍性。

基於視訊的Re-ID。與基於影象的Re-ID相比，基於視訊的Re-ID受到的關注較少。我們回顧了深度學習的Re-ID模型，包括CoSeg[132]、GLTR[136]、STA[135]、ADFD[110]、STC[20]、DRSA[133]、Snippet[134]、ETAP[144]、DuATM[91]、SDM[178]、TwoS[128]、ASTPN[131]、RQEN[171]、Forest[130]、RNN[127]和IDEX[8]。我們還總結了四個視訊Re-ID資料集的結果，如圖6所示。從這些結果中，可以得出以下觀察結果。

首先，隨著深度學習技術的發展，多年來可以看到效能提高的明顯趨勢。具體來說，在PRID-2011資料集上，Rank-1準確度從70%（RNN[127]，2016年）提高到95.5%（GLTR[136]，2019年）；在iLIDS-VID資料集上，從58%（RNN[127]）提高到86.3%（ADFD[110]）。在大規模MARS資料集上，Rank-1準確率/mAP從68.3%/49.3%(IDEX[8])提高到88.5%/82.3%(STC[20])。在Duke-Video資料集[144]上，STA[135]的Rank-1準確率也達到了96.2%，mAP為94.9%。

其次，空間和時間建模對於判別式視訊表示學習至關重要。我們觀察到所有方法（STA[135]、STC[20]、GLTR[136]）都設計了時空聚合策略來提高視訊Re-ID效能。與基於影象的ReID類似，跨多幀[110]、[135]的注意力方案也大大增強了可辨別性。[20]中另一個有趣的觀察表明，利用視訊序列中的多個幀可以填充被遮擋區域，這為將來處理具有挑戰性的遮擋問題提供了可能的解決方案。

最後，這些資料集的效能已經達到飽和狀態，這四個視訊資料集的準確度增益通常不到1%。但是，對於具有挑戰性的案例，仍有很大的改進空間。例如，在新收集的視訊資料集LS-VID[136]上，GLTR[136]的Rank1 accuracy/mAP只有63.1%/44.43%，而GLTR[136]可以達到state-of-the-art或至少在其他四個資料集上具有可比的效能。LS-VID[136]包含明顯更多的身份和視訊序列。這為基於視訊的Re-ID的未來突破提供了具有挑戰性的基準。

3、開放世界的行人再識別

本節回顧第1節中討論的開放世界行人Re-ID，包括通過跨異構模式匹配行人影象的異構Re-ID（第3.1節）、來自原始影象/視訊的端到端Re-ID（第3.2節）、半/帶有有限/不可用註釋標籤的無監督學習（第3.3節），具有噪聲註釋的魯棒Re-ID模型學習（第3.4節）以及在相簿中沒有出現正確匹配時的開放集行人Re-ID（第3.5節）。

3.1 異構Re-ID

本小節總結了四種主要的異構Re-ID，包括深度和RGB影象之間的Re-ID（第3.1.1節）、文字到影象的Re-ID（第3.1.2節）、可見到紅外的Re-ID（§3.1.3)和交叉解析度Re-ID(§3.1.4)。

3.1.1 基於深度的Re-ID

深度影象捕捉身體形狀和骨骼資訊。這為在照明/換衣環境下進行Re-ID提供了可能性，這對於個性化的人類互動應用也很重要。[179]中提出了一種基於迴圈注意力的模型來解決基於深度的行人識別問題。在強化學習框架中，他們結合卷積和迴圈神經網路來識別人體的小的、有區別的區域性區域。卡里亞納基斯等人[180]利用大型RGB資料集設計了一種拆分率RGB到深度的傳輸方法，該方法彌合了深度影象和RGB影象之間的差距。他們的模型進一步結合了時間關注來增強深度Re-ID的視訊表示。一些方法[62]、[181]還研究了RGB和深度資訊的組合以提高Re-ID效能，解決換衣服的挑戰。

3.1.2 文字到影象的Re-ID

Text-to-image Re-ID 解決了文字描述和RGB影象[63]之間的匹配問題。當無法獲取查詢人的視覺影象時，必須提供，只能提供文字描述。

具有迴圈神經網路的門控神經注意力模型[63]學習文字描述和人物影象之間的共享特徵。這使得文字到影象行人檢索的端到端訓練成為可能。程等人[182]提出了一種全域性判別影象-語言關聯學習方法，在重建過程中捕獲身份判別資訊和區域性重建影象-語言關聯。交叉投影學習方法[183]還通過影象到文字匹配來學習共享空間。在[184]中設計了一個深度對抗圖注意力卷積網路，其中包含圖關係挖掘。然而，文字描述和視覺影象之間的巨大語義差距仍然具有挑戰性。同時，如何將文字與手繪素描影象結合起來也值得今後研究。

3.1.3 可見紅外Re-ID

Visible-Infrared Re-ID處理白天可見光和夜間紅外影象之間的交叉模態匹配。這在低光照條件下很重要，在這種情況下，影象只能由紅外攝像機[21]、[60]、[185]捕獲。

吳等人[21]通過提出一個深度零填充框架[21]來自適應地學習模態可共享特徵，開始瞭解決這個問題的第一次嘗試。在[142]、[186]中引入了一個雙流網路來對模態共享和特定資訊進行建模，同時解決模態內和跨模態的變化。除了交叉模態共享嵌入學習[187]，分類器級別的差異也在[188]中進行了研究。最近的方法[189]、[190]採用GAN技術生成跨模態人物影象，以減少影象和特徵級別的跨模態差異。[191]中對分層交叉模態解纏結因素進行了建模。[192]中提出了一種雙注意力聚合學習方法來捕獲多級關係。

3.1.4 交叉解析度Re-ID

Cross-Resolution Re-ID在低解析度和高解析度影象之間進行匹配，解決大解析度變化[13]、[14]。級聯SR-GAN[193]以級聯方式生成高解析度人物影象，並結合身份資訊。李等人[194]採用對抗學習技術來獲得解析度不變的影象表示。

3.2 端到端Re-ID

端到端的Re-ID減輕了對生成邊界框的額外步驟的依賴。它涉及從原始影象或視訊中重新識別行人，以及多攝像頭跟蹤。

原始影象/視訊中的重識別 此任務要求模型在單個框架中聯合執行行人檢測和重識別[55]、[64]。由於兩個主要組成部分的側重點不同，因此具有挑戰性。

鄭等人[55]提出了一個兩階段框架，並系統地評估了後期行人Re-ID的行人檢測的好處和侷限性。肖等人[64]使用單個卷積神經網路設計端到端行人搜尋系統，用於聯合行人檢測和重新識別。開發了一種神經行人搜尋機（NPSM）[195]，通過充分利用查詢和檢測到的候選區域之間的上下文資訊來遞迴地細化搜尋區域並定位目標人。類似地，在圖學習框架中學習上下文例項擴充套件模組[196]以改進端到端行人搜尋。使用Siamese擠壓和激勵網路開發了一個查詢引導的端到端行人搜尋系統[197]，以通過查詢引導的區域提議生成來捕獲全域性上下文資訊。[198]中引入了一種具有判別性Re-ID特徵學習的定位細化方案，以生成更可靠的邊界框。身份鑑別注意力強化學習（IDEAL）方法[199]為自動生成的邊界框選擇資訊區域，從而提高Re-ID效能。

山口等人[200]研究一個更具挑戰性的問題，即從帶有文字描述的原始視訊中搜索人。提出了一種時空人物檢測和多模態檢索的多階段方法。預計沿著這個方向進一步探索。
多攝像頭跟蹤。端到端行人重識別也與多人、多攝像頭跟蹤密切相關[52]。為多人跟蹤[201]提出了一種基於圖的公式來連結人的假設，其中將整個人體和身體姿勢佈局的整體特徵組合為每個人的表示。里斯塔尼等人[52]通過硬身份挖掘和自適應加權三元組學習來學習多目標多攝像機跟蹤和行人Re-ID之間的相關性。最近，提出了一種具有相機內和相機間關係建模的區域性感知外觀度量（LAAM）[202]。

3.3 半監督和無監督Re-ID

3.3.1 無監督Re-ID

早期的無監督Re-ID主要學習不變的元件，即字典[203]、度量[204]或顯著性[66]，這導致可區分性或可擴充套件性有限。

對於深度無監督的方法，跨相機標籤估計是一種流行的方法[176]，[205]。動態圖匹配（DGM）[206]將標籤估計公式化為二分圖匹配問題。為了進一步提高效能，利用全域性相機網路約束[207]進行一致匹配。劉等人通過逐步度量提升[204]逐步挖掘標籤。一種魯棒的錨嵌入方法[83]迭代地將標籤分配給未標記的軌跡，以擴大錨視訊序列集。通過估計的標籤，可以應用深度學習來學習Re-ID模型。

對於端到端無監督Re-ID，在[205]中提出了一種迭代聚類和Re-ID模型學習。類似地，樣本之間的關係被用於層次聚類框架[208]。軟多標籤學習[209]從參考集中挖掘軟標籤資訊以進行無監督學習。Tracklet Association無監督深度學習(TAUDL)框架[170]共同進行相機內tracklet關聯並模擬跨相機tracklet相關性。類似地，一種無監督的相機感知相似性一致性挖掘方法[210]也在粗到細的一致性學習方案中提出。相機內挖掘和相機間關聯應用於圖關聯框架[211]。可轉移聯合屬性-身份深度學習（TJAIDL）框架[111]也採用了語義屬性。然而，使用新到達的未標記資料進行模型更新仍然具有挑戰性。

此外，一些方法還嘗試基於觀察到區域性部分的標籤資訊比整個影象更容易挖掘標籤資訊來學習部分級表示。PatchNet[153]旨在通過挖掘補丁級別的相似性來學習有區別的補丁特徵。自相似分組（SSG）方法[212]以自定進度的方式迭代地進行分組（利用全域性身體和區域性部位的相似性進行偽標記）和Re-ID模型訓練。

半/弱監督Re-ID。 在標籤資訊有限的情況下，[213]中提出了一種一次性度量學習方法，該方法結合了深度紋理表示和顏色度量。[144]中提出了一種基於視訊的Re-ID逐步單次學習方法（EUG），逐漸從未標記的軌跡中選擇一些候選者來豐富標記的軌跡集。多例項注意力學習框架[214]使用視訊級標籤進行表示學習，減輕了對完整註釋的依賴。

3.3.2 無監督域自適應

無監督域適應（UDA）將標記的源資料集上的知識轉移到未標記的目標資料集[53]。由於源資料集中的大域轉移和強大的監督，它是另一種沒有目標資料集標籤的無監督Re-ID的流行方法。

目標影象生成。使用GAN生成將源域影象轉換為目標域樣式是UDA Re-ID的一種流行方法。使用生成的影象，這可以在未標記的目標域中進行有監督的Re-ID模型學習。魏等人[44]提出了一種行人遷移生成對抗網路（PTGAN），將知識從一個標記的源資料集傳輸到未標記的目標資料集。保留的自相似性和域相異性[120]使用保留相似性的生成對抗網路(SPGAN)進行訓練。異構學習（HHL）方法[215]同時考慮了同質學習的相機不變性和異構學習的域連通性。自適應傳輸網路[216]將自適應過程分解為某些成像因素，包括光照、解析度、相機檢視等。這種策略提高了跨資料集的效能。黃等人[217]嘗試抑制背景偏移以最小化域偏移問題。陳等人[218]設計了一種例項引導的上下文渲染方案，將人的身份從源域轉移到目標域中的不同上下文中。此外，還添加了一個姿勢解糾纏方案來改進影象生成[121]。在[219]中還開發了一種相互平均教師學習方案。然而，實際大規模變化環境的影象生成的可擴充套件性和穩定性仍然具有挑戰性。

巴克等人[125]生成具有不同照明條件的合成數據集，以模擬真實的室內和室外照明。合成的資料集增加了學習模型的泛化性，並且可以很容易地適應新的資料集而無需額外的監督[220]。
目標域監督挖掘。一些方法使用來自源資料集的訓練有素的模型直接挖掘對未標記目標資料集的監督。示例記憶學習方案[106]將三個不變線索視為監督，包括示例不變性、相機不變性和鄰域不變性。域不變對映網路（DIMN）[28]為域遷移任務制定了一個元學習管道，並在每個訓練集對源域的一個子集進行取樣以更新記憶體庫，從而增強可擴充套件性和可辨別性。攝像機檢視資訊也在[221]中用作監督訊號以減少域間隙。一種具有漸進增強的自我訓練方法[222]聯合捕獲目標資料集上的區域性結構和全域性資料分佈。最近，一種具有混合記憶的自定進度對比學習框架[223]取得了巨大成功，它可以動態生成多級監督訊號。

時空資訊也被用作TFusion[224]中的監督。TFusion使用貝葉斯融合模型將在源域中學習到的時空模式轉移到目標域。同樣，開發了Query Adaptive Convolution(QAConv)[225]以提高跨資料集的準確性。

3.3.3 無監督Re-ID SOTA

近年來，無監督Re-ID獲得了越來越多的關注，頂級CV的出版物數量不斷增加就是明證。我們回顧了SOTA在兩個廣泛使用的基於影象的Re-ID資料集上的無監督深度學習方法。結果總結在表3中。從這些結果中，可以得出以下見解。

首先，無監督的Re-ID效能多年來顯著提高。Market-1501資料集的Rank-1準確率/mAP在三年內從54.5%/26.3%(CAMEL[226])增加到90.3%/76.7%(SpCL[223])。DukeMTMC資料集的效能從30.0%/16.4%提高到82.9%/68.8%。監督和無監督學習之間的差距顯著縮小。這證明了無監督Re-ID與深度學習的成功。

其次，目前的無監督Re-ID仍然不發達，可以在以下方面進一步改進：1）有監督的ReID方法中強大的注意力方案很少應用於無監督的ReID。2）目標域影象生成已在某些方法中被證明是有效的，但它們並未應用於兩種最佳方法（PAST[222]，SSG[212]）。3）在目標域的訓練過程中使用帶註釋的源資料有利於跨資料集學習，但也不包括在上述兩種方法中。這些觀察結果為進一步改進提供了潛在基礎。

第三，無監督和有監督的Re-ID之間仍然存在很大差距。例如，有監督的ConsAtt[93]在Market1501資料集上的rank-1準確率已達到96.1%，而無監督SpCL[223]的最高準確率約為90.3%。最近，何等人[229]已經證明，具有大規模未標記訓練資料的無監督學習能夠在各種任務上優於監督學習[230]。我們預計未來無監督Re-ID會取得一些突破。

3.4 噪聲魯棒的Re-ID

由於資料收集和註釋困難，Re-ID通常會遇到不可避免的噪聲。我們從三個方面回顧了噪聲魯棒性Re-ID：具有嚴重遮擋的Partial Re-ID、具有由檢測或跟蹤錯誤引起的樣本噪聲的Re-ID，以及具有由註釋錯誤引起的標籤噪聲的Re-ID。

Partial Re-ID。這解決了重度遮擋的Re-ID問題，即只有人體的一部分是可見的[231]。採用全卷積網路[232]為不完整的人物影象生成固定大小的空間特徵圖。深度空間特徵重建(DSR)被進一步結合，以避免通過利用重建誤差進行顯式對齊。孫等人[67]設計了一個可見性感知零件模型（VPM）來提取可共享的區域級特徵，從而抑制不完整影象中的空間錯位。前景感知金字塔重建方案[233]也試圖從未被遮擋的區域中學習。Pose-Guided Feature Alignment(PGFA)[234]利用姿勢界標從遮擋噪聲中挖掘有區別的部分資訊。然而，由於嚴重的部分錯位、不可預測的可見區域和分散注意力的未共享身體區域，它仍然具有挑戰性。同時，如何針對不同的查詢自適應地調整匹配模型仍需進一步研究。

使用樣本噪聲重新識別。這是指人物影象或視訊序列包含邊緣區域/幀的問題，這可能是由於檢測不佳/跟蹤結果不準確造成的。為了處理人物影象中的外圍區域或背景雜亂，利用了姿勢估計線索[17]、[18]或注意力線索[22]、[66]、[199]。基本思想是抑制噪聲區域在最終整體表示中的貢獻。對於視訊序列，集級特徵學習[83]或幀級重新加權[134]是減少噪聲幀影響的常用方法。侯等人[20]還利用多個視訊幀來自動完成遮擋區域。預計未來會有更多特定領域的樣本噪聲處理設計。

使用標籤噪聲重識別。由於標註錯誤，標籤噪聲通常是不可避免的。鄭等人採用標籤平滑技術來避免標籤過度擬合問題[42]。[235]中提出了一種對特徵不確定性進行建模的分佈網路(DNet)，用於針對標籤噪聲進行穩健的Re-ID模型學習，從而減少具有高特徵不確定性的樣本的影響。與一般分類問題不同，魯棒的Re-ID模型學習受到每個身份的訓練樣本有限[236]的影響。此外，未知的新身份增加了魯棒Re-ID模型學習的額外難度。

3.5 開放集Re-ID及其他

Open-set Re-ID 通常被表述為一個人驗證問題，即區分兩個人影象是否屬於同一身份[69]、[70]。驗證通常需要學習條件，即sim(query;gallery)>T。早期的研究設計了手工系統[26]、[69]、[70]。對於深度學習方法，[237]中提出了Adversarial PersonNet(APN)，它聯合學習了GAN模組和Re-ID特徵提取器。該GAN的基本思想是生成逼真的類似目標的影象（冒名頂替者）並強制特徵提取器對生成的影象攻擊具有魯棒性。[235]中還研究了建模特徵不確定性。然而，實現高真實目標識別並保持低錯誤目標識別率仍然相當具有挑戰性[238]。

組重識別。 它旨在將人與群體而不是個人聯絡起來[167]。早期的研究主要集中在稀疏字典學習[239]或協方差描述符聚合[240]的組表示提取上。多粒度資訊整合在[241]中，以充分捕捉群體的特徵。最近，圖卷積網路被應用在[242]中，將組表示為一個圖。組相似性也應用於端到端行人搜尋[196]和個體重新識別[197]、[243]以提高準確性。然而，組Re-ID仍然具有挑戰性，因為組變化比個體更復雜。

動態多攝像機網路。 動態更新的多相機網路是另一個具有挑戰性的問題[23]、[24]、[27]、[29]，它需要對新相機或探測器進行模型調整。[24]中引入了一種人工在環增量學習方法來更新Re-ID模型，使表示適應不同的探針庫。早期研究還將主動學習[27]應用於多攝像頭網路中的連續Re-ID。[23]中介紹了一種基於稀疏非冗餘代表選擇的連續自適應方法。傳遞推理演算法[244]旨在利用基於測地線流核心的最佳源相機模型密集人群和社會關係中的多個環境約束（例如，相機拓撲）被整合到一個開放世界的行人Re-ID系統[245]。攝像機的模型適應和環境因素在實際的動態多攝像機網路中至關重要。此外，如何將深度學習技術應用於動態多攝像頭網路的研究還較少。

4、展望：下一個時代的重新識別

本節首先在第4.1節中介紹了一個新的評估指標，然後介紹行人Re-ID的強基線（在第4.2節中）。它為未來的Re-ID研究提供了重要的指導。最後，我們將在第4.3節中討論一些未充分調查的未解決問題。

4.1 mINP：一種新的Re-ID評估指標

對於一個好的Re-ID系統，目標人應該被儘可能準確地檢索到，即所有正確的匹配應該具有低排名值。考慮到目標人物在排名靠前的檢索列表中不應被忽視，尤其是對於多攝像頭網路，從而準確跟蹤目標。當目標人物出現在多個時間戳集合中時，最難正確匹配的排名位置決定了檢查員進一步調查的工作量。然而，目前廣泛使用的CMC和mAP指標無法評估該屬性，如圖7所示。在相同的CMC下，rank list 1比rank list 2獲得更好的AP，但需要更多的努力才能找到所有正確的匹配項.為了解決這個問題，我們設計了一種計算效率高的度量，即負懲罰（NP），它測量懲罰以找到最難的正確匹配

其中Rhardi表示最難匹配的排名位置，|Gi|表示查詢i的正確匹配總數。自然，較小的NP代表更好的效能。為了與CMC和mAP保持一致，我們更喜歡使用逆負懲罰(INP)，它是NP的逆運算。總體而言，所有查詢的平均INP表示為

mINP的計算非常高效，可以無縫整合到CMC/mAP計算過程中。mINP避免了mAP/CMC評估中容易匹配的支配。一個限制是與小型畫廊相比，大型畫廊的mINP值差異會小得多。但它仍然可以反映Re-ID模型的相對效能，為廣泛使用的CMC和mAP指標提供補充。

4.2 單/跨模態重識別的新基線

根據第2.4.2節中的討論，我們為person Re-ID設計了一個新的AGW3基線，它在單模態（影象和視訊）和跨模態Re-ID任務上都取得了競爭效能。具體來說，我們的新基線是在BagTricks[122]之上設計的，AGW包含以下三個主要改進元件：

（1）非區域性注意力（Att）塊。如第2.4.2節所述，注意方案在判別式Re-ID模型學習中起著至關重要的作用。我們採用強大的非區域性注意力塊[246]來獲得所有位置特徵的加權和，表示為

其中Wz是要學習的權重矩陣，∅(∙)表示非區域性操作，+xi制定殘差學習策略。細節可以在[246]中找到。我們採用[246]中的預設設定來插入非區域性注意力塊。

(2)廣義平均(GeM)池化。作為細粒度的例項檢索，廣泛使用的最大池化或平均池化無法捕獲特定領域的判別特徵。我們採用了一個可學習的池化層，稱為廣義均值（GeM）池化[247]，其公式為

其中fk表示特徵圖，K是最後一層中特徵圖的數量。Xk是特徵圖k∈{1,2,…,K}的WxH啟用集；pk是一個池化超引數，在反向傳播過程中學習[247]。當p_k→∞時，上述操作近似於最大池化，當p_k=1時，上述操作近似於平均池化。

(3)加權正則化三元組(WRT)損失。除了使用softmax交叉熵的基線身份損失之外，我們還集成了另一個加權正則化三元組損失:

其中(I,j,k)表示每個訓練批次中的硬三元組。對於anchor i，Pi是對應的正集，Ni是負集。dpij/dnik表示正/負樣本對的成對距離。上述加權正則化繼承了正負對之間相對距離優化的優點，但它避免引入任何額外的邊距引數。我們的加權策略類似於[248]，但我們的解決方案沒有引入額外的超引數。

AGW的總體框架如圖8所示。其他元件與[122]完全相同。在測試階段，採用BN層的輸出作為Re-ID的特徵表示。實施細節和更多實驗結果在補充材料中。

單模態影象重識別結果。我們首先在表4中的基於影象的兩個資料集（Market1501和DukeMTMC）上評估每個元件。我們還列出了兩種最先進的方法，BagTricks[122]和ABD-Net[173]。我們在表5中報告了CUHK03和MSMT17資料集的結果。我們獲得了以下兩個觀察結果：

1）所有元件始終有助於提高準確性，並且AGW在各種指標下的表現都比原始BagTricks好得多。AGW為未來的改進提供了強有力的基準。我們還嘗試結合部件級特徵學習[77]，但大量實驗表明它並沒有提高效能。如何將part-level的特徵學習與AGW進行聚合，未來需要進一步研究。

2）與當前最先進的ABD-Net[173]相比，AGW在大多數情況下表現良好。特別是，我們在DukeMTMC資料集上實現了更高的mINP，分別為45.7%和42.1%。這表明AGW找到所有正確匹配項所需的工作更少，驗證了mINP的能力。

單模態視訊重識別結果。我們還在廣泛使用的基於單模態視訊的四個資料集（MARS[8]、DukeVideo[144]、PRID2011[126]和iLIDS-VID[7]）上評估了提議的AGW，如表6所示。我們還比較了兩種狀態最先進的方法，BagTricks[122]和Co-Seg[132]。對於視訊資料，我們開發了一個變體(AGW+)來捕獲時間資訊，通過幀級平均池化來進行序列表示。同時，約束隨機抽樣策略[133]用於訓練。與Co-Seg[132]相比，我們的AGW+在大多數情況下獲得了更好的Rank-1、mAP和mINP。

Partial Re-ID的結果。我們還在兩個Partial Re-ID資料集上測試了AGW的效能，如表7所示。實驗設定來自DSR[232]。我們還使用最先進的VPM方法[67]實現了可比的效能。該實驗進一步證明了AGW在開放世界Partial Re-ID任務中的優越性。同時，mINP也展示了這個開放世界Re-ID問題的適用性。

跨模態重識別的結果。我們還在跨模態可見紅外Re-ID任務上使用雙流架構測試了AGW的效能。在兩個資料集上與當前最先進技術的比較如表8所示。我們按照AlignG[190]中的設定進行實驗。結果表明，AGW比現有的跨模態Re-ID模型實現了更高的準確度，驗證了開放世界Re-ID任務的有效性。

4.3 未充分調查的未解決問題

我們根據§1中的五個步驟從五個不同方面討論開放問題，包括不可控的資料收集、人工註釋最小化、特定領域/可概括的架構設計、動態模型更新和高效模型部署。

4.3.1 不可控的資料收集

大多數現有的Re-ID作品在定義明確的資料收集環境中評估他們的方法。然而，真實複雜環境中的資料採集是不可控的。資料可能是從不可預測的模態、模態組合，甚至是換衣資料中獲取的[30]。

多異構資料。在實際應用中，ReID資料可能是從多種異構模態中捕獲的，即人物影象的解析度變化很大[193]，查詢集和相簿集可能包含不同的模態（可見、熱[21]、深度[62]或文字描述[10])。這導致了具有挑戰性的多個異類行人Re-ID。一個好的行人重識別系統將能夠自動處理不斷變化的解析度、不同的模式、各種環境和多個領域。預計未來的工作具有廣泛的普遍性，評估他們針對不同Re-ID任務的方法。

換裝資料。在實際的監控系統中，很可能會包含大量正在換衣服的目標行人。服裝變化感知網路（CCAN）[250]通過分別提取面部和身體上下文表示來解決這個問題，並且在[251]中應用了類似的想法。楊等人[30]提出了一種空間極座標變換(SPT)來學習跨服裝不變表示。但是，它們仍然嚴重依賴面部和身體外觀，這在實際場景中可能不可用且不穩定。進一步探索其他判別線索（例如步態、形狀）來解決換布問題的可能性會很有趣。

4.3.2 人工註釋最小化

除了無監督學習，主動學習或人機互動[24]、[27]、[154]、[159]提供了另一種可能的解決方案來減輕對人工註釋的依賴。

主動學習。結合人工互動，可以輕鬆地為新到達的資料提供標籤，並且可以隨後更新模型[24]、[27]。成對子集選擇框架[252]通過首先構建一個邊加權的完整kpartite圖，然後將其作為一個無三角形子圖最大化問題來解決，從而最大限度地減少了人工標記工作。沿著這條線，深度強化主動學習方法[154]迭代地改進學習策略，並在人工環內監督下訓練一個Re-ID網路。對於視訊資料，設計了一種具有順序決策的可解釋強化學習方法[178]。主動學習在實際的Re-ID系統設計中至關重要，但在研究界卻很少受到關注。此外，即使對人類來說，新出現的身份也極具挑戰性。未來有望實現高效的人類在環主動學習。

學習虛擬資料。這為最小化人工註釋提供了替代方案。在[220]中收集了一個合成數據集進行訓練，當在這個合成數據集上訓練時，它們在真實世界的資料集上取得了有競爭力的表現。巴克等人[125]生成具有不同照明條件的新合成數據集，以模擬逼真的室內和室外照明。在[105]中收集了一個大規模的合成PersonX資料集，以系統地研究視點對行人Re-ID系統的影響。最近，[253]還研究了3D人物影象，從2D影象生成3D身體結構。然而，如何彌合合成影象和真實世界資料集之間的差距仍然具有挑戰性。

4.3.3 特定領域/通用架構設計

Re-ID特定架構。現有的Re-ID方法通常採用為影象分類設計的架構作為主幹。一些方法修改架構以實現更好的Re-ID功能[82]、[122]。最近，研究人員已經開始設計特定領域的架構，例如具有全方位特徵學習的OSNet[138]。它在一定尺度上檢測小尺度的判別特徵。OSNet是極其輕量級的並且實現了具有競爭力的效能。隨著自動神經架構搜尋（例如，Auto-ReID[139]）的進步，更多特定領域的強大架構有望解決特定於任務的Re-ID挑戰。Re-ID中有限的訓練樣本也增加了架構設計的難度。

域可泛化的Re-ID。眾所周知，不同資料集[56]、[225]之間存在很大的域差距。大多數現有方法採用域適應進行跨資料集訓練。一個更實用的解決方案是學習具有多個源資料集的域泛化模型，這樣學習的模型可以推廣到新的未見資料集，以進行有區別的ReID，而無需額外的訓練[28]。胡等人[254]通過引入部件級CNN框架研究了跨資料集的行人Re-ID。Domain-Invariant Mapping Network (DIMN)[28]設計了一個用於域可泛化Re-ID的元學習管道，學習人物影象與其身份分類器之間的對映。域泛化性對於在未知場景下部署學習到的Re-ID模型至關重要。

4.3.4 動態模型更新

固定模型不適用於實際的動態更新監控系統。為了緩解這個問題，動態模型更新勢在必行，無論是針對新域/相機還是適應新收集的資料。

模型適應新領域/相機。模型適應新領域已在文獻中被廣泛研究為領域適應問題[125]，[216]。在實際的動態攝像機網路中，新的攝像機可能會臨時插入到現有的監控系統中。

模型適應對於多攝像頭網路中的連續識別至關重要[23]、[29]。為了使學習模型適應新相機，傳遞推理演算法[244]旨在利用基於測地線流核心的最佳源相機模型。但是，當新相機新收集的資料具有完全不同的分佈時，仍然具有挑戰性。此外，隱私和效率問題[255]也需要進一步考慮。

使用新到達的資料更新模型。使用新收集的資料，從頭開始訓練先前學習的模型是不切實際的[24]。在[24]中設計了一種增量學習方法以及人類互動。對於深度學習的模型，將使用協方差損失[256]的加法整合到整體學習功能中。然而，由於深度模型訓練需要大量的訓練資料，這個問題沒有得到很好的研究。此外，新到達的資料中未知的新身份難以識別用於模型更新。

4.3.5 高效的模型部署

設計高效且自適應的模型以解決實際模型部署的可擴充套件性問題非常重要。

快速重識別。為了快速檢索，雜湊演算法已被廣泛研究以提高搜尋速度，近似於最近鄰搜尋[257]。跨相機語義二進位制變換（CSBT）[258]將原始的高維特徵表示轉換為緊湊的低維身份保持二進位制程式碼。在[259]中開發了一種粗到細（CtF）雜湊碼搜尋策略，互補地使用短碼和長碼。但是，特定領域的雜湊演算法仍然需要進一步研究。

輕量級模型。解決可擴充套件性問題的另一個方向是設計一個輕量級的Re-ID模型。在[86][138]、[139]中研究了修改網路架構以實現輕量級模型。模型蒸餾是另一種方法，例如，在[260]中提出了一種多教師自適應相似性蒸餾框架，該框架從多個教師模型中學習使用者指定的輕量級學生模型，而無需訪問源域資料。

資源感知重識別。根據硬體配置自適應地調整模型也提供了處理可擴充套件性問題的解決方案。Deep Anytime ReID(DaRe)[14]採用簡單的基於距離的路由策略來自適應地調整模型，以適應具有不同計算資源的硬體裝置。

5、結束語

本文從封閉世界和開放世界的角度進行了全面調查，並進行了深入分析。我們首先從特徵表示學習、深度度量學習和排名優化三個方面介紹封閉世界設定下廣泛研究的Person Re-ID。藉助強大的深度學習，封閉世界行人Re-ID在多個數據集上實現了效能飽和。相應地，開放世界的設定最近受到越來越多的關注，努力應對各種實際挑戰。我們還設計了一個新的AGW基線，它在各種指標下的四個Re-ID任務上實現了具有競爭力的效能。它為未來的改進提供了強有力的基準。該調查還引入了一個新的評估指標來衡量找到所有正確匹配項的成本。我們相信這項調查將為未來的Re-ID研究提供重要的指導。

應用材料

這份補充材料與我們的主要手稿一起提供了實施細節和更全面的實驗。我們首先介紹了兩個單模態封閉世界Re-ID任務的實驗，包括A節中四個資料集上的基於影象的Re-ID和B節中四個資料集上的基於視訊的Re-ID。然後我們介紹了在兩個開放世界的Re-ID任務，包括C節中兩個資料集上的可見紅外跨模態ReID和D節中兩個資料集上的Partial Re-ID。此外，最後總結了我們調查的結構概述。

A．基於單模態影象的Re-ID實驗

架構設計。我們提出的用於單模態Re-ID的AGW基線的整體結構（https://github.com/mangye16/ReID-Survey）在第4節（圖R1）中進行了說明。我們採用在ImageNet上預訓練的ResNet50作為我們的骨幹網路，並將全連線層的維度更改為與訓練資料集中的身份數量一致。骨幹網路中最後一次空間下采樣操作的步幅從2變為1。因此，當輸入解析度為256x128的影象時，輸出特徵圖的空間大小從8x4變為16x8。在我們的方法中，我們將原始ResNet50中的全域性平均池化替換為廣義均值(GeM)池化。廣義均值池化的池化超引數pk初始化為3.0。一個名為BNNeck的BatchNorm層插入在GeM池化層和全連線層之間。訓練階段採用GeM池化層的輸出計算中心損失和三元組損失，而測試推理階段使用BNNeck後的特徵計算行人影象之間的距離。

非區域性注意力。ResNet包含4個殘差階段，即conv2_x、conv3_x、conv4_x和conv5_x，每個階段都包含瓶頸殘差塊的堆疊。我們分別在conv3_3、conv3_4、conv4_4、conv4_5和conv4_6之後插入了五個非本地塊。我們在實驗中採用了瓶頸為512個通道的非本地塊的點積版本。對於每個非區域性塊，在表示Wz的最後一個線性層之後新增一個BatchNorm層。這個BatchNorm層的仿射引數被初始化為零，以確保非區域性塊可以插入到任何預訓練的網路中，同時保持其初始行為。

訓練策略。在訓練階段，我們隨機抽取16個身份和每個身份的4張影象，形成大小為64的mini-batch。每張影象被調整為256x128個畫素，用0填充10個畫素，然後隨機裁剪成256x128畫素。資料增強也分別採用了0.5概率的隨機水平翻轉和隨機擦除。

具體來說，隨機擦除增強[123]隨機選擇一個面積比為re的矩形區域與整個影象，並用影象的平均值擦除其畫素。此外，該區域的縱橫比在r1和r2之間隨機初始化。在我們的方法中，我們將上述超引數設定為0.02<re<0.4，r1=0.3和r2=3.33。最後，我們對每幅影象的RGB通道進行歸一化，均值分別為0.485、0.456、0.406，標準偏差分別為0.229、0.224、0.225，與[122]中的設定相同。

訓練損失。在訓練階段，結合三種損失進行優化，包括身份分類損失（Lid）、中心損失（Lct）和我們提出的加權正則化三元組損失（Lwrt）。

中心損失（1）的平衡權重設定為0.0005，加權正則化三元組損失的權重（2）設定為1.0。採用標籤平滑來改善原始身份分類損失，這鼓勵模型在訓練過程中不那麼自信，並防止過度擬合分類任務。具體來說，它將one-hot標籤更改如下：

其中N是身份總數，是一個小常數，用於降低真實身份標籤y的置信度，qi被視為訓練的新分類目標。在我們的方法中，我們設定為0.1。

優化器設定。採用權重衰減0.0005的Adam優化器來訓練我們的模型。初始學習率設定為0.00035，在第40輪和第70輪分別降低0.1。該模型總共訓練了120個epoch。此外，還採用了預熱學習率方案來提高訓練過程的穩定性並引導網路以獲得更好的效能。

具體來說，在前10個epoch中，學習率從3.5e-5線性增加到3.5e-4。Epoch t的學習率lr(t)可以計算為：

B．基於視訊的Re-ID實驗

實施細節。我們通過對基於單模影象的Re-ID模型的主幹結構和訓練策略進行一些小的更改，將我們提出的AGW基線擴充套件到基於視訊的Re-ID模型。基於視訊的AGW基線將視訊序列作為輸入並提取幀級特徵向量，然後在BNNeck層之前將其平均為視訊級特徵向量。此外，基於視訊的AGW基線總共訓練了400個epoch，以更好地擬合視訊人物Re-ID資料集。學習率每100個epoch衰減10倍。為了形成輸入視訊序列，我們採用約束隨機取樣策略[133]取樣4幀作為原始行人軌跡的摘要。BagTricks[122]基線以與AGW基線相同的方式擴充套件到基於視訊的Re-ID模型，以進行公平比較。此外，我們還開發了AGW基線的變體，稱為AGW+，用於對行人軌跡中更豐富的時間資訊進行建模。AGW+基線在測試階段採用密集取樣策略形成輸入視訊序列。密集取樣策略將行人軌跡中的所有幀組成輸入視訊序列，從而獲得更好的效能但更高的計算成本。為了進一步提高AGW+baseline在視訊re-ID資料集上的效能，我們還移除了預熱學習率策略，並在線性分類層之前添加了dropout操作。

詳細比較。在本節中，我們將AGW基線與其他最先進的基於視訊的行人Re-ID方法進行效能比較，包括ETAP[144]、DRSA[133]、STA[135]Snippet[134]、VRSTC[20]、ADFD[110]、GLTR[136]和CoSeg[132]。表R1列出了四個視訊人Re-ID資料集（MARS、DukeVideo、PRID2011和iLIDS-VID）的比較結果。我們可以看到，通過簡單地將視訊序列作為輸入並採用平均池化來聚合幀級特徵，我們的AGWbaseline在MARS和DukeVideo這兩個大規模視訊Re-ID資料集上取得了有競爭力的結果。此外，AGW基線在多個評估指標下的表現也明顯優於BagTricks[122]基線。通過進一步建模更多的時間資訊和調整訓練策略，AGW+基線獲得了巨大的改進，並且在PRID2011和iLIDS-VID資料集上也取得了有競爭力的結果。AGW+基線在MARS、DukeVideo和PRID2011資料集上優於大多數最先進的方法。這些基於視訊的行人重識別方法中的大多數通過設計複雜的時間注意機制來利用行人視訊中的時間依賴性來實現最先進的效能。我們相信我們的AGW基線可以幫助視訊Re-ID模型通過適當設計的機制實現更高的效能，以進一步利用空間和時間依賴性。

C. 跨模態重識別實驗

架構設計。我們採用雙流網路結構作為跨模態可見紅外ReID5（https://github.com/mangye16/Cross-Modal-Re-ID-baseline）的主幹。與單模態人Re-ID中的單流架構（圖8）相比，主要區別在於，即第一個塊特定於兩種模態以捕獲特定於模態的資訊，而其餘塊是共享的學習模態共享特徵。與[142]、[261]中廣泛使用的只有一個共享嵌入層的雙流結構相比，我們的設計捕獲了更多可共享的元件。圖R2顯示了跨模態可見紅外Re-ID的圖示。

訓練策略。在每個訓練步驟中，我們從整個資料集中隨機抽取8個身份。然後為每個身份隨機選擇4個可見影象和4個紅外影象。總共，每個訓練批次包含32個可見影象和32個紅外影象。這保證了從兩種模態中進行資訊豐富的硬三元組挖掘，即，我們直接從模態內和模態間選擇硬陽性和陰性。這近似於雙向中心約束頂級損失的想法，同時處理模態間和模態內的變化。

為了公平比較，我們完全按照[142]中的設定進行影象處理和資料增強。對於紅外影象，我們保留原來的三個通道，就像可見的RGB影象一樣。兩種模式的所有輸入影象首先調整為288x144，並採用零填充隨機裁剪和隨機水平翻轉進行資料論證。兩種模態的裁剪影象大小均為256x128。影象歸一化完全遵循單模態設定。

訓練損失。在訓練階段，我們結合了身份分類損失（Lid）和我們提出的加權正則化三元組損失（Lwrt）。將身份損失和加權正則化三元組損失相結合的權重設定為1，與單模態設定相同。池化引數pk設定為3。為了穩定訓練，我們對兩種異構模式採用相同的身份分類器，挖掘可共享的資訊。

優化器設定。我們在兩個資料集上將初始學習率設定為0.1，並在20和50個epoch分別將其衰減0.1和0.01。訓練epoch的總數為60。我們還採用了預熱學習率方案。我們採用隨機梯度下降（SGD）優化器進行優化，動量引數設定為0.9。我們在跨模態Re-ID任務上嘗試了相同的Adam優化器（用於單模態Re-ID），但由於使用大的學習率，效能遠低於SGD優化器。這是至關重要的，因為對紅外影象採用了ImageNet初始化。

詳細比較。本節與最先進的跨模態VI-ReID方法進行比較，包括eBDTR[142]、HSME[187]、D2RL[189]、MAC[261]、MSR[262]和對齊GAN[190]。這些方法是在過去兩年中發表的。AlignGAN[190]發表於ICCV2019，通過將特徵級別和畫素級別的交叉模態表示與GAN生成的影象對齊，實現了最先進的效能。兩個資料集的結果顯示在表R2和R3中。我們觀察到，所提出的AGW始終優於當前最先進的技術，而無需耗時的影象生成過程。對於RegDB資料集上的不同查詢設定，我們提出的基線通常保持相同的效能。我們提出的基線已廣泛用於許多最近開發的方法中。我們相信我們的新基線將為提升跨模式Re-ID提供良好的指導。

D. Partial Re-ID實驗

實施細節。我們還評估了我們提出的AGW基線在兩個常用的Partial Re-ID資料集Partial-REID和Partial-iLIDS上的效能。Re-ID AGW基線模型的整體骨幹結構和訓練策略與基於單模態影象的Re-ID模型相同。Partial-REID和Partial-iLIDS資料集都只提供查詢影象集和相簿影象集。因此，我們在Market-1501資料集的訓練集上訓練AGW基線模型，然後在兩個Partial Re-ID資料集的測試集上評估其效能。我們採用相同的方法來評估BagTricks[122]基線在這兩個Partial Re-ID資料集上的效能，以便更好地進行比較和分析。

詳細比較。我們將AGW基線的效能與其他最先進的Partial Re-ID方法進行了比較，包括DSR[232]、SFR[249]和VPM[67]。所有這些方法都是近年來發表的。Partial-REID和Partial-iLIDS資料集的比較結果如表R4所示。VPM[67]通過自我監督感知區域的可見性並提取區域級特徵，實現了非常高的效能。僅考慮全域性特徵，與兩個資料集上的當前最先進技術相比，我們提出的AGW基線仍然取得了具有競爭力的結果。此外，與BagTricks[122]相比，AGW基線在多個評估指標下帶來了顯著的改進，證明了它對Partial Re-ID問題的有效性。

E. 本次調查概述

本次調查總覽圖如圖R3 所示。根據開發行人Re-ID系統的五個步驟，我們在封閉世界和開放世界設定中進行了調查。封閉世界設定在三個不同方面進行了詳細說明：特徵表示學習、深度度量學習和排名優化。然後，我們從基於影象和視訊的角度總結資料集和SOTA。對於開放世界的人Re-ID，我們將其總結為五個方面：包括異構資料、來自原始影象/視訊的Re-ID、不可用/有限的標籤、嘈雜的註釋和開放集的Re-ID。

在總結之後，我們提出了對未來行人Re-ID的展望。我們設計了一個新的評估指標（mINP）來評估找到所有正確匹配項的難度。通過分析現有Re-ID方法的優勢，我們為未來的發展開發了強大的AGW基線，在四個Re-ID任務上實現了競爭效能。最後，討論了一些研究不足的未解決問題。我們的調查全面總結了不同子任務中現有的最新技術。
同時，對未來發展方向進行分析，以供進一步發展指導。

Acknowledgement.作者要感謝匿名審稿人提供寶貴的反饋意見，以提高本次調查的質量。作者還要感謝行人重新識別和其他相關領域的先驅研究人員。本作品由CAAI-HuaweiMindSpore開放基金贊助。