1. 程式人生 > >2018.09.10

2018.09.10

Person Re-Identification by Deep Learning Multi-Scale Representations 

Motivation:

目前所有re-id的方法,不管是不是基於CNN的,第一步都是將影象resize到統一大小然後再來提取特徵。這種做法會模糊掉影象在不同尺度上的顯著性特徵,因此作者認為這樣的方法不是最優的,本文提出了一種在多尺度上提取特徵並且共同學習的方法,稱之為DPFL(Deep Pyramidal Feature Learning)。

Network:

Loss:

  • Single Scale Feature Learning

 

使用的主網路是42層的Inception-V3,每個scale上都是用同樣的網路結構進行softmax分類,得到每個scale上輸入影象的分類概率

  • Multi-Scale Consensus Learning

同樣利用公式(2)進行multi-scale的feature learning

提取主網路最後一層卷積層的特徵c∗c∗2048c∗c∗2048維,然後加上averaging-pooling→vector concatenation→dropout得到2048*m維的向量,m為scale的個數。然後進行softmax分類,得到各個scale特徵融合之後的分類概率

當T的值為1的時候變為hard target,即標準的softmax loss,此時對於多分類用的是one-hot形式表示的label,這樣表示存在的問題就是不能更好的表示類間可能存在相似性,比如貓和虎之間的概率差值範圍到不了1,但T值變大的時候,類間的差別變得平滑。但在文中,T值仍然設定的為1.

  • Feature Regularisation by Consensus Propagation

一致性傳播的特徵約束,本人理解為多個scale的預測概率要跟混合之後的預測ID是相同的,於是在單scale的loss上加了一個正則項約束。

  • 模型優化:

實驗結果忽略。

前向時先每個分支學習,然後每個分支上加上正則項;反向時先每個分支更新梯度,然後融合的分支更新梯度。

本文主要考慮的是scale因素,不同scale的特徵會彌補單scale提取特徵的不足,單scale可能會忽略或者漏掉一些重要的資訊特徵,多scale是否能夠用在parts上的?

Part-Aligned Bilinear Representations for Person Re-identification 

本文主要是解決了part misalignment問題,主要應用Bilinear Representationstwo-stream network,如圖示:在原始的Bilinear CNN中,一個stream學習影象區域的位置,一個stream學習的對應位置的特徵,之後經過Bilinear層將位置與其對應區域的特徵進行外交,之後再concatenate特徵,經過度量計算相似度,這樣的方法相當於在appearance feature的相似度計算上加上了part feature作為權重約束。本文的loss是傳統的triplet loss。

Bilinear CNN 雙線性模型在一系列視覺任務表現很好,如語義分割,細粒度識別,面部識別

 

問題:

怎樣把對應位置的feature相乘?

appearance feature map怎樣和location feature map對應起來,進行對應的外積呢