1. 程式人生 > 其它 >行人重識別綜述:《Deep Learning for Person Re-identification: A Survey and Outlook》 2021 - 論文研讀系列(4) 個人筆記

行人重識別綜述:《Deep Learning for Person Re-identification: A Survey and Outlook》 2021 - 論文研讀系列(4) 個人筆記

行人重識別綜述:《Deep Learning for Person Re-identification: A Survey and Outlook》 2021

  • 貢獻點:
    • 全面調研了近年來深度學習在Re-ID領域的進展,囊括了近幾年三大視覺頂會上的大部分文章(如有遺漏,請諒解)。主要包括Closed-world Re-IDOpen-world Re-ID的研究進展,常用資料集和評價指標的概述,並分析了現有方法的不足和改進點。
    • 展望:1) 一個新的評價指標mINP,用來評價找到最困難匹配行人所需要的代價;2) 一個強有力的AGW方法,在四種不同型別的Re-ID任務,包括12個數據集中取得了較好的效果;3) 從五個不同的方面討論了未來Re-ID研究的重點和難點,僅供大家參考。

1、前言:

  • Re-ID技術五大步驟:
    • 1、資料採集,一般來源於監控攝像機的原始視訊資料;
    • 2、行人框生成,從視訊資料中,通過人工方式或者行人檢測或跟蹤方式將行人從圖中裁切出來,影象中行人將會佔據大部分面積;
    • 3、訓練資料標註,包含相機標籤和行人標籤等其他資訊;
    • 4、重識別模型訓練,設計模型(主要指深度學習模型),讓它從訓練資料中儘可能挖掘“如何識別不同行人的隱藏特徵表達模式”;
    • 5、行人檢索,將訓練好的模型應用到測試場景中,檢驗該模型的實際效果。
  • 針對以上五個步驟的一些約束條件,本文將ReID技術分為 Closed-world 和Open-world 兩大子集。Closed-world概括為大家常見的標註完整的有監督的行人重識別方法,Open-world概括為多模態資料,端到端的行人檢索,無監督或半監督學習,噪聲標註和一些Open-set的其他場景。

2、Closed-world Re-ID

  • 一般包含以下假設:(1)通過影象或視訊,可見光(RGB)攝像機捕捉行人;(2)行人由bounding boxes框出;(3)有足夠多的被標註訓練資料;(4)標註的資料標籤通常都是正確的;(5)query person必須出現在gallery set 中。
  • 根據方法設計流程,將其分為特徵學習度量學習排序優化三個部分。研究人員的方法通常針對這三方面進行改進,側重點不同。有的是提出了新穎的特徵學習方法,有的提出有效的度量損失函式,也有的是在測試檢索階段進行優化。
  • 在本章節末尾,還概括了現有的常用資料集和評價指標,以及現有SOTA的優缺點分析。

2.1 特徵學習方法

  • 全域性特徵學習,利用全身的全域性影象來進行特徵學習,常見的改進思路有Attention機制,多尺度融合等;
  • 區域性特徵學習,利用區域性影象區域(行人部件或者簡單的垂直區域劃分)來進行特徵學習,並聚合生成最後的行人特徵表示;
  • 輔助特徵學習,利用一些輔助資訊來增強特徵學習的效果,如語義資訊(比如行人屬性等)、視角資訊(行人在影象中呈現的不同方位資訊)、域資訊(比如每一個攝像頭下的資料表示一類域)、GAN生成的資訊(比如生成行人影象)、資料增強等;
  • 視訊特徵學習:利用一些視訊資料提提取時序特徵,並且融合多幀影象資訊來構建行人特徵表達
  • 特定的網路設計:利用Re-ID任務的特性,設計一些細粒度,多尺度等相關的網路結構,使其更適用於Re-ID的場景。

2.2 度量學習方法(損失函式)

  • 早期的度量學習主要是設計不同型別的距離/相似度度量矩陣。深度學習時代,主要包括不同型別的損失函式的設計及取樣策略的改進:
    • Identity Loss: 將Re-ID的訓練過程當成影象分類問題,同一個行人的不同圖片當成一個類別,常見的有Softmax交叉熵損失函式;
    • Verification Loss:將Re-ID的訓練當成影象匹配問題,是否屬於同一個行人來進行二分類學習,常見的有對比損失函式,二分類損失函式;
    • Triplet Loss:將Re-ID的訓練當成影象檢索問題,同一個行人圖片的特徵距離要小於不同行人的特徵距離,以及其各種改進;
    • 訓練策略的改進:自適應的取樣方式(樣本不均衡,難易程度)以及不同的權重分配策略

2.3 排序優化

  • 用學習好的Re-ID特徵得到初始的檢索排序結果後,利用圖片之間的相似性關係來進行初始的檢索結果優化,主要包括重排序(re-ranking)和排序融合(rank fusion)等。

2.4 資料集和評價

  • 主要包括現有的一些常用影象和視訊資料集的概括,以及現有方法SOTA的一些總結和分析,希望綜述裡面的一些分析能夠在大家進行模型設計時提供一些思路和幫助。具體分析詳見原文。
  • SOTA:state of the art縮寫,指在該項研究任務中,目前最好/最先進的模型,或者目前最好的模型的結果/效能/表現。

3、Open-World Re-ID

  • 由於常規的 Closed-world Re-ID 在有監督的實驗場景中已經達到或接近瓶頸了,現在很多的研究都更偏向於 Open-World Re-ID 場景,也是當前Re-ID研究的熱點。
  • 根據Re-ID系統設計的五個步驟,本章節也從以下五個方面介紹:
    • 1、多模態資料,所採集的資料不是單一的可見光模態;
    • 2、端到端的行人檢索(End-to-end Person Search),沒有預先檢測或跟蹤好的行人圖片/視訊
    • 3、無監督和半監督學習,標註資料有限或者無標註的新場景
    • 4、噪聲標註的資料,即使有標註,但是資料採集和標註過程中存在噪聲或錯誤
    • 5、一些其他Open-set場景,查詢行人找不到,群體重識別,動態的多攝像頭網路等

3.1 跨模態/多模態(異構)資料

  • 基於深度影象Re-ID:旨在利用深度圖資訊的匹配(融合或跨模態匹配),在很多人機互動的室內場景應用中非常重要;
  • 文字到影象Re-ID;旨在利用文字語言描述來搜尋特定的行人影象,解決實際場景中查詢行人影象缺失等問題;
  • 可見光到紅外Re-ID:旨在跨模態匹配白天的可見光影象到夜晚的紅外行人影象,也有一些方法直接解決低照度的重識別任務;
  • 跨解析度Re-ID;不同高低解析度行人影象匹配,旨在解決不同距離攝像頭下行人解析度差異巨大等問題
  • 總體而言,異構的行人重識別問題需要解決的一大難題是不同模態資料之間的差異性問題
  • 純影象/視訊的Re-ID;從原始raw 影象或者視訊中直接檢索出行人;
  • 多攝像頭跟蹤的Re-ID;跨攝像頭跟蹤,也是很多產業化應用的重點。

3.3 半監督和無監督的Re-ID

  • 為了緩解對標註資料的依賴,半監督和無監督/自監督現在成為了當前研究的熱點,在CV頂會上呈爆炸之勢。本文也主要分成兩個部分:無監督Re-ID(不需要標註的源域)和無監督域自適應Re-ID(需要標註的源域資料或模型):

    • 無監督Re-ID:主要包括一些跨攝像頭標籤估計(聚類或圖匹配等)的方法,以及一些其他監督資訊挖掘的方法(如local patch相似性等);
    • 無監督域自適應Re-ID:包括一些目標域影象資料生成和一些目標域監督資訊挖掘等方式。
  • 考慮到無監督學習也是現在研究的熱點,本文也對現有的SOTA做了一個簡單的總結和分析,可以看到現在的無監督學習方法已經是效果驚人了,未來可期。如下表所示:

3.4 噪聲魯棒的Re-ID

  • 主要針對標註資料或者資料採集中產生的一些噪聲或錯誤等,方法包括:
    • Partial Re-ID:解決行人影象區域部分被遮擋的行人重識別問題;(例如換裝)
    • Noise Sample:主要針對行人影象或視訊中檢測、跟蹤產生的錯誤或偏差
    • Noise Label:主要針對行人標籤標註產生的錯誤

3.5 Open-set Re-ID and Beyond

  • 主要針對一些其他開放場景進行一些探討,如
    • 1)gallery set 中query 行人沒有出現的場景;
    • 2)Group Re-ID:行人群體匹配的問題;
    • 3)動態的多攝像頭網路匹配等問題

4、展望

4.1 新的評價指標mINP

  • 考慮到實際場景中,目標人物具有隱匿性,很多時候要找到其困難目標都非常難,給偵查工作帶來麻煩。mINP主要目的是為了衡量Re-ID演算法用來找到最難匹配樣本所要付出的代價,
  • 其計算方式跟mAP一樣非常簡單,應該還是對評價Re-ID效果有一定補充作用。簡單來講,排名倒數第一的正確樣本位置越靠後,人工排查干預的代價越大,mINP的值越小。這裡感謝Fast-ReID(https://github.com/JDAI-CV/fast-reid )專案對我們評價指標和方法的整合。

4.2 新的基準方法AGW

  • 主要是在@羅浩 的Bag of tricks(感謝)上做的一些改進,主要包括:
    • 1)Non-local注意力機制的融合;(自注意力機制)
    • 2)Generalized-mean (GeM) Pooling的細粒度特徵提取;(廣義均值池化)
      • 相比於最大池化(對輸入樣本取均值),平均池化(對輸入樣本取最大值),GeM包含可學習的引數p,對輸入樣本先求p次冪,然後取均值,在進行p次開方。GeM目前已經成為了影象檢索池化操作的主流使用方法
    • 3)加權正則化的三元組損失(Weighted Regularization Triplet (WRT) loss):
  • 在審稿人的建議下,我們在四種不同型別的任務(影象Re-ID, 視訊Re-ID,跨模態紅外Re-ID和Partial Re-ID)的12個數據集上均對我們提出的新指標mINP和AGW方法進行了測評,在大多數情況下,我們的方法都能夠取得比較好的效果。具體的實驗結果和分析可以參考我們的論文和補充材料,希望我們的方法和評價指標能對大家有一些幫助。

4.3 對未來一些研究方向的思考

  • 這一部分也是緊扣前面提出的五個步驟,針對五個步驟未來亟待解決的關鍵問題或者熱點問題進行歸納。由於每個人理解上的認知偏差,這裡的建議僅供大家參考:
    • 不可控的資料採集:不確定多種模態混合的Re-ID,而不是固定的模態設定;換裝的Re-ID,2020年已經有好幾個新的資料集;
    • 減少人工標註依賴:人機互動的主動學習,選擇性的標註;從虛擬資料進行學習(Learning from virtual data),如何解決虛擬資料中的domain gap;
    • 面向Re-ID通用網路設計:Domain Generalized Re-ID,如何設計一種在未知場景中也表現優異的模型,如何利用自動化機器學習來設計針對Re-ID任務的網路模型;
    • 動態的模型更新:如何以小的代價將學習好的網路模型微調至新攝像頭場景中;如何高效的利用新採集的資料(Newly Arriving Data)來更新之前已訓練好的模型;
    • 高效的模型部署:輕量型快速的行人重識別演算法設計,自適應的針對不同型別的硬體配置(小型的移動手機和大型伺服器)調整模型。