通過弱監督多尺度的屬性定位來增強行人屬性識別
阿新 • • 發佈:2020-10-13
通過弱監督多尺度的屬性定位來增強行人屬性識別、
摘要
行人屬性識別需要定位屬性相關的屬性來識別屬性。現有的方法採用屬性不確定的視覺注意或啟發式身體部位定位機制來增強區域性特徵表示,而忽略了使用屬性來定義區域性特徵區域。
引言
現有的大多數方法將行人屬性識別當成多標籤問題,然後僅僅從一張圖片提取各個屬性特徵。該方法依賴於整體特徵,但是區域特徵對於高吸力度的屬性分類更有用。
有人採用注意力機制來獲得相關屬性的掩模,但是效果不好,生成的掩模通常包含位元定屬性區域還要大的區域。
有方法採用軀幹檢測、姿態估計、區域提議等方法來學習基於區域的特徵。但大多數演算法只是將基於部分的特徵與全域性特徵融合,仍然無法表示屬性-區域的對應關係。
提出的方法
總體框架
網路結構:
文章的思想是通過屬性定位來增強屬性識別。如圖所示,該框架由特徵金字塔結構的主網路和一組適用於不同特徵層次的屬性定位模組組成。首先將輸入的行人影象在不新增區域標註的情況下輸入主網路,在自底向上路徑的末端得到一個預測向量。
顯然,低階細節資訊和高階語義資訊是互補的。因此,文章提出了一種特徵金字塔結構,以增強屬性定位和基於區域的特徵學習相結合。
總結
將FCN(水平跳連和頂部特徵圖向上取樣的到的圖拼接在一起)和屬性定位模組核通道注意力機制結合在一起。損失函式是幾個特徵圖大小水平得到的特徵所預測出來的結果損失求和。