1. 程式人生 > 其它 >行人重檢測綜述

行人重檢測綜述

Deep learning for person re-identification: A survey and outlook

將行人重識別分為closed-world(實驗室中使用的資料集)和open-world(實際專案中的資料集)

  • 首先從deep feature representation learning、deep metric learning和ranking optimization三個不同的角度分析了closed-world。
  • 我們從五個不同方面總結了開放世界的 open-world

其他:

  • 通過分析現有方法的優勢,我們設計了一個強大的 AGW(Attention Generalized mean pooling with Weighted triplet loss)基線
  • 我們為 person Re-ID 引入了一個新的評估指標mINP(mean Inverse Negative Penalty),表示找到所有正確匹配項的成本.
  • 最後,討論了一些重要但未充分研究的開放性問題。

Re-ID:從圖片中找到感興趣的人,查詢人可以用影象、視訊序列,甚至文字描述來表示
影響Re-ID的因素:不同的視角、不同的低影象解析度、光照變化 、不受約束的姿勢、遮擋、、複雜的相機環境、背景雜波等

Re-ID需要五個主要步驟:

  • 原始資料採集:原始資料的背景含有大量的干擾資訊。
  • 邊界框生成(Bounding Box Generation):通過人員檢測或跟蹤演算法裁剪出人物的影象。
  • 模型訓練:特徵表示學習、距離度量學習或它們倆的組合上。
  • 資料標註:針對當前場景的資料進行標註
  • 行人檢索(Pedestrian Retrieval.):從gallery set找到感興趣的人,並按可能性進行排序。

closed-world(實驗室中使用的資料集)和open-world(實際專案中的資料集)的區別:

closed-world open-world
原始資料採集 可見相機拍攝的影象/視訊 紅外影象 、草圖 [61]、深度影象 ,甚至文字描述
邊界框生成 通常基於生成的bounding box進行訓練和測試 需要從原始影象或視訊中進行端到端的人物搜尋
資料量 足夠 少量
標註 一般都是標註正確的 很可能有標註錯誤的樣本
行人檢索 從gallery set中查詢影象 查詢人可能不會出現在相簿集

closed-world

Feature Representation Learning

closed-world的行人重識別中的特徵學習策略。主要有四類(圖2)

  • Global Feature,它為每個人物影象提取一個全域性特徵表示向量
    1.為了捕捉全域性特徵學習中的細粒度線索而做的工作
    2.使用注意力機制
  • Local Feature,聚合人像各個部分的特徵,得到最終的一個特徵
    1.自動檢測人的各個部位,將全域性特徵和區域性特徵結合起來
    2.水平將人像進行分割,然後對各個分割的部分進行特徵提取,然後將這些特徵綜合起來
  • Auxiliary Feature:利用person的屬性、GAN 生成的影象等額外的資訊生成額外的特徵
  • Video Feature:它使用多個影象幀和時間資訊學習到的特徵(利用迴圈神經網路等)

設計架構:現在的很多Re-ID工作使用的是影象分類設計的網路架構,如ResNet50 backbone。設計架構關注準確率、效率。最近auto-machine learning引發關注。

三種常用的損失函式(圖3):

  • Identity Loss: 將Re-ID 的訓練過程視為一個影象分類問題,使用交叉熵計算分類的損失
  • Verification Loss:計算經過特徵提取以後,兩個特徵向量之間的距離
  • Triplet Loss:anchor sample與正樣本和負樣本進行對比。四元組包含一個錨樣本、一個正樣本和兩個挖掘的負樣本。

triplet loss 和 identity loss 的組合是Re-ID中最流行的解決方案之一

還有一種損失函式——Online Instance Matching (OIM) loss,它是基於memory bank scheme。memory bank scheme用於unsupervised domain adaptive Re-ID

深度學習時代之前,度量學習已得到廣泛研究。度量學習的作用已被損失函式設計所取代,以指導特徵表示學習。

訓練策略:

  • 隨機選擇一定數量的身份,然後從每個選擇的身份中抽取幾張影象。

Ranking Optimization(優化排名):

同一個人的圖片,根據識別的難易,從最簡單開始往下排序。

Rank Fusion:通過不同方法獲得的多個排名列表來提高檢索效能

常用的資料集:VIPeR [31], iLIDS [167], GRID [168], PRID2011 [126], CUHK01-03 [43], Market-1501 [5], DukeMTMC [42], Airport [169] and MSMT17 [44]) and 7 video datasets (PRID-2011 [126], iLIDS-VID [7], MARS [8], Duke-Video [144], Duke-Tracklet [170], LPW [171] and LS-VID [136]