行人重檢測綜述
Deep learning for person re-identification: A survey and outlook
將行人重識別分為closed-world(實驗室中使用的資料集)和open-world(實際專案中的資料集)
- 首先從deep feature representation learning、deep metric learning和ranking optimization三個不同的角度分析了closed-world。
- 我們從五個不同方面總結了開放世界的 open-world
其他:
- 通過分析現有方法的優勢,我們設計了一個強大的 AGW(Attention Generalized mean pooling with Weighted triplet loss)基線
- 我們為 person Re-ID 引入了一個新的評估指標mINP(mean Inverse Negative Penalty),表示找到所有正確匹配項的成本.
- 最後,討論了一些重要但未充分研究的開放性問題。
Re-ID:從圖片中找到感興趣的人,查詢人可以用影象、視訊序列,甚至文字描述來表示
影響Re-ID的因素:不同的視角、不同的低影象解析度、光照變化 、不受約束的姿勢、遮擋、、複雜的相機環境、背景雜波等
Re-ID需要五個主要步驟:
- 原始資料採集:原始資料的背景含有大量的干擾資訊。
- 邊界框生成(Bounding Box Generation):通過人員檢測或跟蹤演算法裁剪出人物的影象。
- 模型訓練:特徵表示學習、距離度量學習或它們倆的組合上。
- 資料標註:針對當前場景的資料進行標註
- 行人檢索(Pedestrian Retrieval.):從gallery set找到感興趣的人,並按可能性進行排序。
closed-world(實驗室中使用的資料集)和open-world(實際專案中的資料集)的區別:
closed-world | open-world | |
---|---|---|
原始資料採集 | 可見相機拍攝的影象/視訊 | 紅外影象 、草圖 [61]、深度影象 ,甚至文字描述 |
邊界框生成 | 通常基於生成的bounding box進行訓練和測試 | 需要從原始影象或視訊中進行端到端的人物搜尋 |
資料量 | 足夠 | 少量 |
標註 | 一般都是標註正確的 | 很可能有標註錯誤的樣本 |
行人檢索 | 從gallery set中查詢影象 | 查詢人可能不會出現在相簿集 |
closed-world
Feature Representation Learning
closed-world的行人重識別中的特徵學習策略。主要有四類(圖2)
- Global Feature,它為每個人物影象提取一個全域性特徵表示向量
1.為了捕捉全域性特徵學習中的細粒度線索而做的工作
2.使用注意力機制 - Local Feature,聚合人像各個部分的特徵,得到最終的一個特徵
1.自動檢測人的各個部位,將全域性特徵和區域性特徵結合起來
2.水平將人像進行分割,然後對各個分割的部分進行特徵提取,然後將這些特徵綜合起來 - Auxiliary Feature:利用person的屬性、GAN 生成的影象等額外的資訊生成額外的特徵
- Video Feature:它使用多個影象幀和時間資訊學習到的特徵(利用迴圈神經網路等)
設計架構:現在的很多Re-ID工作使用的是影象分類設計的網路架構,如ResNet50 backbone。設計架構關注準確率、效率。最近auto-machine learning引發關注。
三種常用的損失函式(圖3):
- Identity Loss: 將Re-ID 的訓練過程視為一個影象分類問題,使用交叉熵計算分類的損失
- Verification Loss:計算經過特徵提取以後,兩個特徵向量之間的距離
- Triplet Loss:anchor sample與正樣本和負樣本進行對比。四元組包含一個錨樣本、一個正樣本和兩個挖掘的負樣本。
triplet loss 和 identity loss 的組合是Re-ID中最流行的解決方案之一
還有一種損失函式——Online Instance Matching (OIM) loss,它是基於memory bank scheme。memory bank scheme用於unsupervised domain adaptive Re-ID
深度學習時代之前,度量學習已得到廣泛研究。度量學習的作用已被損失函式設計所取代,以指導特徵表示學習。
訓練策略:
- 隨機選擇一定數量的身份,然後從每個選擇的身份中抽取幾張影象。
Ranking Optimization(優化排名):
同一個人的圖片,根據識別的難易,從最簡單開始往下排序。
Rank Fusion:通過不同方法獲得的多個排名列表來提高檢索效能
常用的資料集:VIPeR [31], iLIDS [167], GRID [168], PRID2011 [126], CUHK01-03 [43], Market-1501 [5], DukeMTMC [42], Airport [169] and MSMT17 [44]) and 7 video datasets (PRID-2011 [126], iLIDS-VID [7], MARS [8], Duke-Video [144], Duke-Tracklet [170], LPW [171] and LS-VID [136]