TransReID: Transformer-based Object Re-Identification [2102.04378v2] - 論文研讀系列(3) 個人筆記

阿新 • • 發佈：2022-04-13

TransReID: Transformer-based Object Re-Identification [2102.04378v2]

論文題目：TransReID: Transformer-based Object Re-Identification
論文地址：http://arxiv.org/abs/2102.04378v2
程式碼：https://github.com/heshuting555/TransReID
21年2月文章

1、摘要簡介

構建了一個基於transformer的強baseline
為了進一步增強魯棒特徵，設計了兩個新模組：
- 提出``jigsaw patch module`JPM，通過shift和shuffle操作對patch（？）的嵌入進行重排列從而生成魯棒特徵
- 引入側資訊嵌入SIE，通過插入可學習嵌入來融合非視覺線索，從而減輕對檢視變化的特徵偏差
基於CNN的論文有兩個問題沒有得到很好的解決：
- （1）CNN由於有效接受域的高斯分佈，主要針對較小的識別區域（時序關係不好處理）。本文前的注意力方法偏愛大面積的連續區域，難以提取多個多樣的判別部分
- (b)基於CNN，(c)基於CNN+注意力，(d)基於transformer
- （2）細粒度特徵很重要，CNN的下采樣池化和跨步卷積stride convolution降低了輸出特徵圖的空間解析度。
- Transformer的多頭自注意捕獲長距離依賴，並驅動模型參與不同的人體部位，無需下采樣操作，Transformer可以保留更詳細的資訊。（本文通過設計，再去之前的Transformer work裡尋找原因）
  - 區域性特徵和側面資訊是增強特徵魯棒性的重要方面
  - 對部分/條紋聚合特徵對遮擋和失調具有魯棒性，但CNN中設計的全域性序列分裂成幾個獨立子序列會破壞長期依賴關係；
  - 可以通過構造不變特徵空間來減小側面資訊變化帶來的偏差。基於CNN構建的側面資訊設計不能直接應用在Trans上，需要單獨設計。
  - 因此首先要設計Trans的框架baseline專用於Reid，其次再在擴充套件長期依賴上針對區域性特徵和側面資訊設計單獨模組。

2、相關論文

3、TransReid

3.1 Trans baseline（全域性特徵）

分為特徵提取和監督學習兩個階段。
- 分割N個固定大小patch，一個額外可學習的嵌入標記[cls]被前置到輸入序列。輸出的[cls]
  
  標記作為一個全域性特徵表示f。
- 輸入序列為：Z_0 = [x_cls;F(x1_p);F(x2_p);...F(xn_p)] + P。p表示位置嵌入，F是將patch對映到D維的線性投影。使用l個Trans層學習特徵表示。由於所有Trans層都有一個全域性接受域，解決了基於cnn方法的接受域有限問題，並且沒有下采樣操作。
第一步Overlapping Patches：不重疊的patch會使得周圍區域性鄰近資訊丟失，因此使用滑窗生成畫素重疊的patch。patch大小設為P，步長S，分割N個patch，N越大效能越好但是計算成本也大：
第二步Position Embedding：由於Reid任務解析度和原始影象解析度不同，因此不能直接載入預訓練好的位置嵌入，因此引入雙線性2D插值來幫助處理任何給定的輸入解析度。與VIT類似位置嵌入可學習。（embedding簡單來說就是編碼。）
第三步監督學習：通過構造全域性特徵的ID損失和三重損失來優化網路。ID損失Lid是沒有標籤平滑的交叉熵損失，輸出的f經過了BNNeck計算。對於三元組{a,p,n}具有軟合併的三元組損失LT：after present next
BNNeck：批量歸一化
- 在行人重識別模型中，有很多工作都是融合了ID loss和Triplet loss來進行訓練的，但是這種loss函式的目標並不協調，對於ID loss，特別在行人重檢測，consine距離比歐氏距離更加適合作為優化標準，而Triplet loss更加註重在歐式空間提高類內緊湊性和類間可分性。因此兩者關注的度量空間不一致，這就會導致一個可能現象就是當一個loss減小時另外一個在震盪或增大。
- 通過神經網路提取特徵ft用於Triplet loss，然後通過一個BN層變成了fi，在訓練時，分別使用ft和fi來優化這個網路，由於BN層的加入，ID loss就更容易收斂，另外，BNNeck也減少了ID loss對於ft優化的限制，從而使得Triplet loss也變得容易收斂了。因為超球體幾乎是對稱的座標軸的原點，BNNECK的另一個技巧是去除分類器fc層的偏差，這個偏差會限制分類的超球面。在測試時，使用fi作為ReID的特徵提取結果，這是由於Cosine距離相比歐氏距離更加有效的原因。

3.2 拼圖patch模組 Jigsaw Patch Module

假設輸入到最後一層的特徵記為Z_l-1，將嵌入的patch進行洗牌，重新組合成不同部分，每個部分包含多個隨機的整體的patch嵌入。訓練中引入額外噪聲。
受shuffleNet啟發，通過shift和shuffle操作對patch進行洗牌：
- 第一步shift：後移m個patch
- 第二步patch shuffle：特徵內部進行區域性置換，沒改變整體的特徵資訊，又添加了新的變化，也是一種正則化手段。將置換後的特徵分成k組編碼成k個區域性特徵{f1_l,f2_l..fk_l}，輸出到最後一層的全域性特徵計算和JPM區域性特徵計算並行進行，拼接並行結果得到最終的特徵表達：{fg;f1_l;f2_l;..fk_l}，因此每個特徵可以編碼不同的部件。整體損失定義如下：

3.3 側資訊嵌入 side information embedding

主要針對場景偏誤（不同攝像機，不同角度）提出的，將非視覺資訊整合在嵌入表示中以學習不變特徵。在輸入嵌入時增加一維表示側資訊，即視角資訊，相同視角編碼相同。攝像機和視點編碼為SC(c,v)，id值為r和q，SIE對每個patch來說相當於一個帶超參的偏置項

4、實驗結果

TransReID: Transformer-based Object Re-Identification [2102.04378v2] - 論文研讀系列(3) 個人筆記

TransReID: Transformer-based Object Re-Identification [2102.04378v2] 論文題目：TransReID: Transformer-based Object Re-Identification

行人重識別綜述：《Deep Learning for Person Re-identification: A Survey and Outlook》 2021 - 論文研讀系列(4) 個人筆記

行人重識別綜述：《Deep Learning for Person Re-identification: A Survey and Outlook》 2021 貢獻點：

YOLO-Pose: Enhancing YOLO for Multi Person Pose Estimation Using Object Keypoint Similarity Loss [2204.06806] - 論文研讀系列(6) 個人筆記

YOLO-Pose: Enhancing YOLO for Multi Person Pose Estimation Using Object Keypoint Similarity Loss [2204.06806]

(2021TPAMI深度學習行人重識別綜述與展望)Deep learning-based person re-identification methods A survey and outlook of recent works

目錄 1、引言 2、封閉世界的行人重識別 2.1 特徵表示學習 2.1.1 全域性特徵表示學習

(2022 IVC 行人再識別綜述)Deep learning-based person re-identification methods: A survey and outlook of recent works

目錄摘要 1、引言 2、資料集和度量標準 2.1資料集 2.1.1基於影象的行人再識別資料集

NFormer: Robust Person Re-identification with Neighbor Transformer

簡介： NFormer是一種基於Neighbor Transformer的魯棒人體重新識別方法。它通過對相鄰影象中人體的特徵進行聚合來提高人體重新識別的準確性和穩定性。

2020 TIFS之ReID:Visible-Infrared Person Re-Identification via Homogeneous Augmented Tri-Modal Learnin

Visible-Infrared Person Re-Identification via Homogeneous Augmented Tri-Modal Learning 簡述：現有的方法通常只學習了跨模態特徵，而忽略了影象層次的差異。生成影象的思路目前有些方法採用GAN生成交

Hetero-Center Loss for Cross-Modality Person Re-Identification閱讀筆記

論文題目：Hetero-Center Loss for Cross-Modality Person Re-Identification 來源：Neurocomputing 動機：對於跨模態reid，大多數的研究都是關注於提高類間的特徵差異去解決問題（也就是提高不同ID行人圖片

跨模態行人重識別：RGB-Infrared Cross-Modality Person Re-Identification（2017 ICCV）

RGB-Infrared Cross-Modality Person Re-Identification 文章目錄 RGB-Infrared Cross-Modality Person Re-IdentificationAbstract一、Introduction二、SYSU-MM01三、跨模態網路比較四、結論

【論文筆記】Improving Transformer-based End-to-End Speech Recognition with CTC and LM Integration

題目 Improving Transformer-based End-to-End Speech Recognition with Connectionist Temporal Classification and Language Model Integration

PIoU Loss: Towards Accurate Oriented Object Detection in Complex Environments論文閱讀翻譯 - 2020ECCV

PIoU Loss: Towards Accurate Oriented Object Detection in Complex Environments論文閱讀翻譯文章目錄

《A Lexicon-Based Graph Neural Network for Chinese NER》思維導圖筆記

A Lexicon-Based Graph Neural Network for Chinese NER 基於詞典的圖神經網路解決中文命名實體識別作者: Tao Gui , Yicheng Zou等單位:復旦大學發表會議及時間: EMNLP2019

《生化危機 Re：Verse》介紹生化系列諸多名角參戰

今日(1月22日)卡普空官方正式公佈了25週年紀念作品《生化危機 Re：Verse》，這款遊戲是由4-6名玩家進行死亡競賽的生存恐怖對戰遊戲，支援中文。目前該作正在進行封測招募，玩家可以前往官方網站報名。

Waymo object detect 2D解決方案論文拓展

FixMatch 半監督中的基礎論文，自監督和模型一致性的代表作。 Consistency regularization: 無監督學習的方式，資料\\(A\\)和經過資料增強的\\(A\\)計做\\(A\'\\) ,同時輸入模型\\(f\\) ，由於其種類相同（未知但

Codeforces Round #759 (Div. 2, based on Technocup 2022 Elimination Round 3) 個人題解

Codeforces Round #759 (Div. 2, based on Technocup 2022 Elimination Round 3) 個人題解比賽連結：Codeforces Round #759 (Div. 2, based on Technocup 2022 Elimination Round 3)

全新體驗 RE引擎《生化危機》系列遊戲VR MOD釋出

去年10月曾有報道稱，praydog正在製作一款面向所有RE引擎遊戲的VR MOD。如今，這款VR MOD的首個版本已經開放下載。

物件儲存（Object-based Storage）

1 前言經常在網上看到物件儲存文章，但一直沒有一篇文章能讓我明白物件儲存是什麼。最近得到一個機會，老闆希望我們告訴他什麼是物件儲存，為了給老闆做5頁PPT筆者參閱了大量的文獻並整理成文（以下文章僅

【閱讀記錄】3DSSD:Point-based 3D Single Stage Object Detector

前情提要在目前的三維目標檢測任務中，大致分為單階段和雙階段的網路。雙階段網路可以依靠pointnet++這樣的網路得到的語義資訊提供更加精確的結果。單階段網路雖然具備了快速的優點，但是由於在道路環境下點的數量龐

Identification of Key Nodes Based on Integrating of Global and Local Information論文

　　之前使用PageRank提取關鍵結點的方法是計算每個結點的PageRank的值，然後提取top10%的結點作為關鍵結點。但是PageRank是從全域性視角給網頁排序，從而得到的每個結點的PageRank的值。

What happened when new an object in JVM ?

原文連結：www.javaspring.net/java/what-h… I. Introduction As you know,Java is an object-oriented programming language. We usually use a variety of objects while writing code. So when you write

TransReID: Transformer-based Object Re-Identification [2102.04378v2] - 論文研讀系列(3) 個人筆記

TransReID: Transformer-based Object Re-Identification [2102.04378v2]

1、摘要簡介

2、相關論文

3、TransReid

3.1 Trans baseline（全域性特徵）

3.2 拼圖patch模組 Jigsaw Patch Module

3.3 側資訊嵌入 side information embedding

4、實驗結果

相關推薦