NFormer: Robust Person Re-identification with Neighbor Transformer
阿新 • • 發佈:2022-12-10
簡介:
NFormer是一種基於Neighbor Transformer的魯棒人體重新識別方法。它通過對相鄰影象中人體的特徵進行聚合來提高人體重新識別的準確性和穩定性。
首先,NFormer通過學習人體關鍵點的鄰域資訊,將人體關鍵點的特徵聚合到一個矩陣中,這個矩陣稱為關鍵點矩陣。
然後,NFormer採用Neighbor Transformer對關鍵點矩陣進行特徵聚合,通過多層的Transformer結構來捕捉鄰域資訊,並通過一個分類器來預測人體的ID。
最後,NFormer通過模型融合的方式,將多個模型的預測結果融合到一起,來提高人體重新識別的準確性和穩定性。
摘要:
大多數研究考慮從單個影象中學習表示,而忽略了它們之間的任何潛在互動。然而,由於一個人在攝像頭下的角度一直在變化,如果忽略這種變化,那麼不同角度的圖片輸入到模型中,模型會認為此圖片存在異常。
為了解決這個問題,我們提出了一個鄰居變壓器網路或NFormer,它顯式地對所有輸入影象之間的互動建模,從而抑制離群特徵,總體上導致更健壯的表示。由於對大量影象之間的互動進行建模是一項具有大量干擾物的海量任務,NFormer 引入了兩個新的模組,即the Landmark Agent Attention和the Reciprocal Neighbor Softmax.
- the Landmark Agent Attention 通過低秩分解有效地對影象之間的關係圖進行建模,該分解使用特徵空間中的landmarks。
- the Reciprocal Neighbor Softmax對相關而不是僅所有鄰居都實現了稀疏的注意力,這減輕了不相關表示的干擾,並進一步減輕了計算負擔。