【NeurIPS2022】Cross Aggregation Transformer for Image Restoration
阿新 • • 發佈:2022-12-08
【NeurIPS2022】Cross Aggregation Transformer for Image Restoration
研究動機:當前方法 Transformer 方法把影象分成8x8的小塊處理,the square window lacks inter-window interaction, leading to the slow increase of the receptive field。同時,the channel-wise attention mechanism may lose some spatial information。影響了 Transformer 方法在影象修復裡的應用。
為此,作者提出了 Cross Aggregation Transformer,架構如下圖所示,主幹網路為RCAN(超解析度中用的非常多的網路),中間是多個 CAT block 的堆疊。CAT block 的核心是作者提出的注意力機制:Rectangle-Window Self-Attention(Rwin-SA)。
1、 Rectangle-Window Self-Attention
Rwin-SA如下圖所示,使用的是矩形的視窗,而不是正方形的視窗。視窗的寬度和高度分別為 sw 和 sh。此外,還使用 axis-shift 實現視窗間資訊的互動。
2、Locality Complementary Module
作者在計算注意力時,添加了一個獨立的卷積運算,稱為 Locality complementary module,如下圖所示,其實就是在V上加了一個卷積,attention 的結果和 卷積融合。