位置感知的自監督transformer
前言 論文提出了通過預測影象部分的相對位置來預訓練網路進行語義分割。
歡迎關注公眾號CV技術指南,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。
論文:https://arxiv.org/pdf/2212.02400.pdf
程式碼:https://github.com/google-research/scenic/tree/main/scenic/projects/loca
論文出發點
預訓練通常用於提高畫素級模型推理的效能和標籤效率。然而,影象級預訓練是否是具有空間理解的識別任務的最佳策略尚不清楚。一項研究表明,一些經過影象分類預訓練的模型,雖然在影象級下游任務中表現出色,但在目標檢測方面表現不佳,而目標檢測需要空間推理。
預訓練通常使用全域性目標的主要原因是:標註在影象級別上比在畫素級別上更容易收集。事實上,在SOTA中通常使用的影象分類或影象-文字資料集比密集標註的資料集大了幾個數量級,涵蓋了更多的類別。因此,釋放大規模密集空間感知預訓練潛力的一種方法可能是去掉標註,正如自監督學習(SSL)方法所提出的那樣。
SSL的一個成功分支,通常被稱為“對比學習”,其工作原理是通過資料增強來匹配從同一影象中獲得的不同影象的表示。Caron等人已經表明,用對比方法訓練的視覺transformer(ViT)的注意圖中出現了分割掩模。
然而,本文在初步實驗中發現,在對語義分割任務進行微調後,顯著注意圖與優異的表現並不相關。因此,作者假設,這是因為對比方法在全域性層面上沒有明確使用空間關係。
本文的主要貢獻
1.本文探索了一種替代內容重建的方法,以鼓勵空間Transformer特徵的出現,即預測相對影象部分的位置。
2.將模型實現為一個分類問題,其中查詢影象中的每個patch都經過訓練,以預測其相對於參考影象的位置。
3.可以通過掩碼查詢的參考patch特徵來控制任務的難度和結果特徵的屬性。
SSL與位置預測
SSL中的開創性工作提出利用空間線索來生成pretext任務。值得注意的是,受word2vec的啟發,Doersch等人訓練了一個網路,以預測同一影象中一對patch的相對位置,而Noroozi和Favaro通過重新排列影象中的一組混疊作物,將這種方法擴充套件到解決“拼圖”。Zhai等人提出對ViT進行預處理,以預測其輸入patch的位置,僅考慮其視覺外觀,即通過丟棄位置嵌入。作者將該策略與本文的LOCA機制進行了比較,如圖2所示。
圖2。單一與查詢-參考patch位置預測機制的概念比較:(a)在單一影象中,如Zhai等人;(b)在查詢影象中相對於LOCA中的參考影象。
方法
查詢參考機制
本文提出了一種查詢參考機制來預測影象部分的定位。具體來說,查詢通過預測一個查詢影象相對於另一個參考影象的位置來工作,如圖1所示。因為查詢和參考是由兩個獨立的擴增圖生成的,所以它們通常具有不同的影象統計資訊(即不同的比例、區域或顏色直方圖)。這迫使網路更少地依賴低階線索(色差、顏色和邊緣一致性)來解決定位任務,而更多地依賴於識別物件部分及其組織。
查詢的任務是在參考影象中定位自己,因此損失僅在兩個影象的相交處定義。此外,為了有利於影象部分表示的出現,限制了查詢的空間範圍。然後,選擇是對參考影象進行取樣,使其覆蓋原始影象的大面積,而查詢影象則覆蓋原始影象中的一小部分。
圖1。LOCA通過預測查詢影象相對於參考影象的位置來工作。
查詢和參考之間的對應關係
根據視覺transformer,查詢影象和參考影象被劃分為解析度為P×P的非重疊patch。更準確地說,參考影象被平坦化為Nref。在查詢影象上應用“patch化”過程,生成一系列Nqpatch。
通過回溯生成xref和xq的資料擴充圖,識別這兩個影象之間的patch級別對應關係。使用連續的最近插值實現函式h,因為xq和xref的修補網格通常不完全對齊。這種效果可以在圖1的示例中看到。
patch位置預測
將查詢定位問題實現為Nref -way分類任務,其中每個查詢patch表示必須預測在參考影象中覆蓋相同內容的patch的位置。為此,查詢的patch表示需要能夠“檢視”參考的patch表示。使用單個交叉注意轉換塊(用g表示)實現這種查詢參考互動,其查詢從Zq計算,鍵和值從Zref獲得。將查詢表示法表示為G = G (Zq, Zref)∈Rd×Nq,並將W∈Rd×Nref表示為最後的“位置分類”層。訓練網路使以下位置預測損失最小化:
平均不同查詢影象和批處理的損失,並通過反向傳播學習f, g和W引數。還使用特徵預測損失來鼓勵在不同影象中覆蓋相似內容的patch保持一致。
掩碼查詢可見的參考patch
在實踐中,作者發現該網路可以近乎完美地解決問題(見圖3中的驗證精度)。
圖3。單一vs查詢參考patch位置預測機制。
對於這兩種機制,報告了位置預測精度(左)和轉移到ADE20k上的語義分割後的效能(右)對於不同的掩碼比η。由於查詢和參考之間的不同影象統計量以及受約束的patch互動,查詢-參考使得訓練前目標更具挑戰性(位置預測任務的準確性較低)。
patch特性預測
受UP-DETR框架的啟發,作者在定位框架中增加了patch特徵預測目標,以獲得更多的語義表示。patch功能不僅應該能夠定位自己,而且還應該能夠匹配不同上下文中處於相似位置的功能。使用基於patch的MSN框架來實現這一點。作者在初步實驗中觀察到,這種選擇對最終效能的影響最小,選擇MSN是因為它的穩定性。
實驗
表1. Localization loss。
圖5。視覺化LOCA的預測。
表2。與以往語義分割結果的比較。
表3。在ADE20k上進行少量的語義分割。
表4。語義分割中的定位與分類。
表5。消融實驗。
圖6。擴充套件實驗。
歡迎關注公眾號CV技術指南,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。
【技術文件】《從零搭建pytorch模型教程》122頁PDF下載
QQ交流群:444129970。群內有大佬負責解答大家的日常學習、科研、程式碼問題。
模型部署交流群:732145323。用於計算機視覺方面的模型部署、高效能運算、優化加速、技術學習等方面的交流。
其它文章
用少於256KB記憶體實現邊緣訓練,開銷不到PyTorch千分之一
DAMO-YOLO | 超越所有YOLO,兼顧模型速度與精度