寫在前面
什麼是deconvolution
- convolution過程
- transposed convolution過程
transposed convolution的計算
- 整除的情況
- 不整除的情況
總結
參考

部落格：blog.shinelee.me | 部落格園 | CSDN

寫在前面

開篇先上圖，圖為deconvolution在畫素級語義分割中的一種應用，直觀感覺deconvolution是一個upsampling的過程，像是convolution的對稱過程。

本文將深入deconvolution的細節，並通過如下方式展開：

先回答什麼是deconvolution？為什麼會有transposed convolutionon、subpixel or fractional convolution這樣的名字？
再介紹各種情形下 transposed convolution是如何進行的，並提供一種統一的計算方法。

什麼是deconvolution

首先要明確的是，deconvolution並不是個好名字，因為它存在歧義：

deconvolution最初被定義為“inverse of convolution”或者“inverse filter”或者“解卷積”，是指消除先前濾波作用的方法。比如，我們認為原始影象是清晰的，但是通過透鏡觀測到的影象卻變得模糊，如果假設透鏡的作用相當於以某個kernel作用在原始影象上，由此導致影象變得模糊，那麼根據模糊的影象估計這個kernel或者根據模糊影象恢復原始清晰影象的過程就叫deconvolution。

後來論文Adaptive Deconvolutional Networks for Mid and High Level Feature Learning和Visualizing and Understanding Convolutional Networks又重新定義了deconvolution，實際上與transposed convolution、sub-pixel or fractional convolution指代相同。transposed convolution是一個更好的名字，sub-pixel or fractional convolution可以看成是transposed convolution的一個特例。對一個常規的卷積層而言，前向傳播時是convolution，將input feature map對映為output feature map，反向傳播時則是transposed convolution，根據output feature map的梯度計算出input feature map的梯度，梯度圖的尺寸與feature map的尺寸相同。

本文談論的是deconvolution的第2個含義，後面統一使用transposed convolution這個名字。

什麼是transposed convolution？A guide to convolution arithmetic for deep learning中有這樣一段話：

看完好像仍不是很直觀，transposed convolution到底對應的是什麼操作？等到文章的後面，這個問題的答案會逐漸清晰起來。

下面先以1個例子來對比convolution過程和transposed convolution過程，採用與A guide to convolution arithmetic for deep learning相同的設定：

2-D transposed convolutions ($N=2$)
square inputs ($i_1=i_2=i$)
square kernel size ($k_1=k_2=k$)
same strides along both axes ($s_1=s_2=s$)
same zero padding along both axes ($p_1=p_2=p$)
square outputs ($o_1=o_2=o$)

若令$i=4$、$s=1$、$p=0$、$k=3$，輸出尺寸$o=2$，則convolution過程是將$4\times 4$的map對映為$2\times 2$的map，而transposed convolution過程則是將$2\times 2$的map對映為$4\times 4$的map，兩者的kernel size均為3，如下圖所示：

可以看到，convolution過程zero padding的數量與超引數$p$一致，但是transposed convolution實際的zero padding的數量為2，為什麼會這樣？是為了保持連線方式相同，下面具體看一下。

convolution過程

先看convolution過程，連線方式如下圖所示，綠色表示輸出，藍色表示輸入，每個綠色塊具與9個藍色塊連線。

令卷積核$\mathbf{w} = \left(\begin{array}{ccc} {w_{0,0}} & {w_{0,1}} & {w_{0,2}} \\ {w_{1,0}} & {w_{1,2}} & {w_{1,2}} \\ {w_{2,0}} & {w_{2,1}} & {w_{2,2}} \end{array}\right)$，為了便於理解，將卷積寫成矩陣乘法形式，令$\mathbf{x}$為$4\times 4$輸入矩陣以行優先方式拉成的長度為16的向量，$\mathbf{y}$為$2\times 2$輸出矩陣以同樣方式拉成的長度為4的向量，同時將$\mathbf{w}$表示成$4\times 16$的稀疏矩陣$\mathbf{C}$，

\[ \left(\begin{array}{cccccccccccccccc}{w_{0,0}} & {w_{0,1}} & {w_{0,2}} & {0} & {w_{1,0}} & {w_{1,1}} & {w_{1,2}} & {0} & {w_{2,0}} & {w_{2,1}} & {w_{2,2}} & {0} & {0} & {0} & {0} & {0} \\ {0} & {w_{0,0}} & {w_{0,1}} & {w_{0,2}} & {0} & {w_{1,0}} & {w_{1,1}} & {w_{1,2}} & {0} & {w_{2,0}} & {w_{2,1}} & {w_{2,2}} & {0} & {0} & {0} & {0} \\ {0} & {0} & {0} & {0} & {w_{0,0}} & {w_{0,1}} & {w_{0,2}} & {0} & {w_{1,0}} & {w_{1,1}} & {w_{1,2}} & {0} & {w_{2,0}} & {w_{2,1}} & {w_{2,2}} & {0} \\ {0} & {0} & {0} & {0} & {0} & {w_{0,0}} & {w_{0,1}} & {w_{0,2}} & {0} & {w_{1,0}} & {w_{1,1}} & {w_{1,2}} & {0} & {w_{2,0}} & {w_{2,1}} & {w_{2,2}}\end{array}\right) \]

則convolution過程可以描述為$\mathbf{C} \mathbf{x} = \mathbf{y}$，若$\mathbf{C}_{i,j}=0$表示$\mathbf{x}_j$和$\mathbf{y}_i$間沒有連線。

transposed convolution過程

再看transposed convolution過程，如何將長度為4的向量$\mathbf{y}$對映為長度為16的向量且保持連線方式相同？只需將$\mathbf{C}$轉置，令$\mathbf{C}^T \mathbf{y} = \mathbf{x}'$，同樣地，$\mathbf{C}^T_{j,i}=0$表示$\mathbf{x}'_j$和$\mathbf{y}_i$間沒有連線。

此時，$\mathbf{C}^T$對應的卷積操作恰好相當於將kernel中心對稱，FULL zero padding，然後卷積，此時，1個藍色塊與9個綠色塊連線，且權重與Convolution過程相同

需要注意的是，transposed convolution的kernel與convolution的kernel可以有關，也可以無關，需要看應用在什麼場景，

在特徵視覺化、訓練階段的反向傳播中應用的transposed convolution，並不是作為一個真正的layer存在於網路中，其kernel與convolution共享（但要經過中心對稱後再卷積，相當於上面的 $ \mathbf{C} ^T $）。
在影象分割、生成模型、decoder中使用的transposed convolution，是網路中真實的layer，其kernel經初始化後需要通過學習獲得（所以卷積核也就無所謂中心對稱不對稱了）。
前向傳播為convolution/transposed convolution，則反向傳播為transposed convolution/convolution。

在上面舉的簡化的例子中，我們可以通過分析得知transposed convolution該如何進行，但是，對於更一般情況應該怎麼做？

transposed convolution的計算

對於一般情況，只需把握一個宗旨：transposed convolution將output size恢復為input size且保持連線方式相同。

對於convolution過程，我們知道其output map與input map的尺寸關係如下：

\[o=\left\lfloor \frac{i+2p-k}{s} \right\rfloor + 1\]

若要將$o$恢復為$i$，需考慮2種情況，$\frac{i+2p-k}{s}$整除以及不整除，先看整除的情況。

整除的情況

如果$\frac{i+2p-k}{s}$可以整除，則由上式可得

\[i = so-s+k-2p = [o+(s-1)(o-1)]+(k-2p-1)\]

因為transposed convolution也是卷積，為了符合上面卷積操作尺寸關係的數學形式，可進一步整理成

\[i = \frac{[o+(s-1)(o-1)] + [(k-1)+(k-2p-1)] - k}{1} + 1\]

令$i'=o+(s-1)(o-1)$、$p'=\frac{(k-1)+(k-2p-1)}{2} = k-p-1 $、$s'=1$、$k'=k$，即transposed convolution實際卷積時使用的超引數，可以這樣理解：

$i'=o+(s-1)(o-1)$：convolution的輸出為$o\times o$，每行每列都是$o$個元素，有$o-1$個間隔，transposed convolution時在每個間隔處插入$s-1$個0，整體構成transposed convolution的input map；
$p'=\frac{(k-1)+(k-2p-1)}{2} = k-p-1 $：在上一步input map的基礎上再進行padding，考慮convolution常用的幾種padding情況：
- VALID：$p=0$，transposed convolution則需padding $p'=k-1$，即FULL padding
- SAME：$p=\frac{k-1}{2}=r$，這裡考慮$k=2r+1$為奇數的一般情況，此時$p'=r$，即SAME padding
- FULL：$p=k-1$，則$p'=0$，即VALID padding
可見，convolution和transposed convolution的padding也具有某種對稱性$p'+p=k-1$；
$k'=k$：transposed convolution的kernel size與convolution相同；
$s'=1$：transposed convolution的stride均為1，但也可以換個角度理解，如果認為$o\times o$相鄰元素間的距離為1個畫素，那麼在間隔處插入$s-1$個0後（$s > 1$），得到的input map相鄰元素間的距離就是亞畫素的（sub-pixel），所以此時也可以稱之為 sub-pixel or fractional convolution；
$o'=i=\frac{i'+2p'-k'}{s'}+1$：transposed convolution的輸出與convolution的輸入具有相同尺寸。

不整除的情況

接下來再看$\frac{i+2p-k}{s}$不整除的情況，此時再按上面的方式計算得到的$o'=\frac{i'+2p'-k'}{s'}+1$將小於$i$，小多少呢？不難得出少$a = [(i+2p-k) \mod s]$，即

\[o'=\frac{i'+2p'-k'}{s'}+1=i-a\]

為了讓$o'=i$，可寫成

\[o'= \frac{i'+2p'+a-k'}{s'}+1\]

只需在padding後，在下邊和右邊再擴充套件$a$行和列0，然後進行卷積即可。注意，因為$s'=1$，我們可以將$a$放在分母也可以放在外面，之所以放在分母，是因為convolution過程中input map下邊和右邊的$a$行或列中的元素可能參與了運算，即與output map間存在連線，所以在transposed convolution時，為了保持同樣的連線，最後擴充套件的$a$行和列也要參與卷積，所以放在分母。

至此，再看transposed convolution的各種情況，就很容易推算了，更多例子可參見A guide to convolution arithmetic for deep learning。

總結

最後，總結一下，

convolution和transposed convolution互為對稱過程，存在一個convolution，就存在一個與之對應的transposed convolution，反之亦然；
convolution是將input size的map對映為output size的map，transposed convolution是將output size的map對映為input size的map——旨在將尺寸恢復；
兩者均使用卷積操作，為了方便，兩者使用同樣的stride、padding、kernel size超引數，但實際執行時的操作不同，一般情況下，transposed convolution與convolution實際超引數關係為：$i'=o+(s-1)(o-1)$、$p'=\frac{(k-1)+(k-2p-1)}{2} = k-p-1 $、$s'=1$、$k'=k$。
之所以做這樣的操作，是為了保證map間的連線方式相同（權重不一定相同），權重的設定需根據應用的場景，可能通過學習得到，也可能與convolution共享（但需要中心對稱後再使用）。

參考

vdumoulin/conv_arithmetic
A guide to convolution arithmetic for deep learning
winter1516_lecture13.pdf
Is the deconvolution layer the same as a convolutional layer?
What are deconvolutional layers?

相關推薦

一文搞懂 deconvolution、transposed convolution、sub-pixel or fractional convolution

目錄寫在前面什麼是deconvolution convolution過程 transposed convolution過程 transposed convolution的

一文搞懂：詞法作用域、動態作用域、回撥函式、閉包

不管什麼語言，我們總要學習作用域(或生命週期)的概念，比如常見的稱呼：全域性變數、包變數、模組變數、本地變數、區域性變數等等。不管如何稱呼這些作用域的範圍，實現它們的目的都一樣： (1)為了避免名稱衝突; (2)為了限定變數的生命週期(本文以變數名說事，其它的名稱在規則上是一樣的)

一文搞懂 db2 的鎖（表鎖、行鎖、共享鎖、排他鎖）

鎖，很好理解，每個人都在自己的房屋上安裝有鎖，你擁有了鎖，房屋只有你能獨佔，別人不能訪問。資料庫中的鎖也一樣，只不過更加細分。 db2 中基本的鎖有兩類：排他鎖（X鎖），也叫寫鎖，當某行資料正在被修改時，其他程序不能再讀取或修改共享鎖（S鎖），也叫讀鎖，當某行資料正

一文搞懂SQL中的各種聯結——內聯結、自然聯結、自聯結、交叉聯結

一、概述所謂“ 聯結 ”指的是資料表和本身，以及不同資料表之間的“ 聯結關係 ”。常見的聯結有自連線、自然連線、內連線、外聯結、完全連線等等。本文以SQLite資料庫作為例項講解，建立了一個名為product的資料庫用來儲存產品資訊。資料庫中有兩個表，一個producti

趣學Spring：一文搞懂Aware、非同步程式設計、計劃任務

你好呀，我是沉默王二，一個和黃家駒一樣身高，劉德華一樣顏值的程式設計師（不信圍觀朋友圈唄）。從 2 位偶像的年紀上，你就可以斷定我的碼齡至少在 10 年以上，但實話實說，我一直堅信自己只有 18 歲，因為好學使我年輕。本篇文章就打算通過我和三妹對話的形式來聊一聊“Spring 的 Aware、非同步程式設計、

一文搞懂文字識別、銀行卡識別、通用卡證識別、身份證識別

# 1 前言檢視華為開發者聯盟網站的機器學習服務業務介紹（[https://developer.huawei.com/consumer/cn/doc/development/HMS-Guides/ml-introduction-4](https://developer.huawei.com/consum

一文搞懂Python函式（匿名函式、巢狀函式、閉包、裝飾器）！

## Python函式定義、匿名函式、巢狀函式、閉包、裝飾器 [TOC] #### 函式核心理解 > - 函式也是物件，可以把函式賦予變數 > - 可以把函式當作引數，傳入另一個函式中 > - 可以在函式裡定義函式，函式巢狀 > - 函式的返回值也可以是函式物件，閉包 #### 1. 函式定義 `

一文搞懂Java引用拷貝、淺拷貝、深拷貝

>微信搜一搜 **「bigsai」** 專注於Java和資料結構與演算法的鐵鐵 >文章收錄在[github/bigsai-algorithm](https://github.com/javasmall/bigsai-algorithm) 在開發、刷題、面試中，我們可能會遇到將一個物件的屬性

一文搞懂 this、apply、call、bind

### 碼文不易，轉載請帶上本文連結，感謝~ https://www.cnblogs.com/echoyya/p/14506269.html [toc] ### this 的指向 **“this” 關鍵字允許在呼叫函式或方法時決定哪個物件應該是焦點。** 在JavaScript中**this**可以是

一文搞懂全排列、組合、子集問題

>微信搜一搜：【bigsai】獲取更多肝貨知識 > 春風十里，感謝有你 ## 前言 Hello，大家好，我是bigsai，long time no see！在刷題和麵試過程中，我們經常遇到一些排列組合類的問題，而全排列、組合、子集等問題更是非常經典問題。本篇文章就帶你徹底搞懂全排列！ **求

一文搞懂各種 Docker 網絡 - 每天5分鐘玩轉 Docker 容器技術（72）

docker 教程容器前面各小節我們先後學習了 Docker Overaly，Macvaln，Flannel，Weave 和 Calico 跨主機網絡方案。目前這個領域是百家爭鳴，而且還有新的方案不斷湧現。本節將從不同維度比較各種網絡方案，大家在選擇的時候可以參考。CloudMan 的建議是：

一文搞懂 Java 線程中斷

回復代碼信號過程執行 except 實例二維微信公眾在之前的一文《如何"優雅"地終止一個線程》中詳細說明了 stop 終止線程的壞處及如何優雅地終止線程，那麽還有別的可以終止線程的方法嗎？答案是肯定的，它就是我們今天要分享的——線程中斷。下面的這斷代碼大家應

資料結構與演算法隨筆之------二叉樹的遍歷（一文搞懂二叉樹的四種遍歷）

二叉樹的遍歷二叉樹的遍歷（traversing binary tree）是指從根結點出發，按照某種次序依次訪問二叉樹中所有的結點，使得每個結點被訪問依次且僅被訪問一次。遍歷分為四種，前序遍歷，中序遍歷，後序遍歷及層序遍歷前序中

一文搞懂k近鄰（k-NN）演算法（一）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Python裝飾器是一款神奇的神器！你知道怎麼用嗎？一文搞懂它！

進群：548377875 即可獲取小編精心準備的教程以及大量的PDF呢！ 1.引子 #功能函式 def add(x,y): return x+y #裝飾函式 def logger(fn): print('frist') x =

一文搞懂交叉熵在機器學習中的使用，透徹理解交叉熵背後的直覺

關於交叉熵在loss函式中使用的理解交叉熵（cross entropy）是深度學習中常用的一個概念，一般用來求目標與預測值之間的差距。以前做一些分類問題

一文搞懂 Java 執行緒中斷

在之前的一文《如何"優雅"地終止一個執行緒》中詳細說明了 stop 終止執行緒的壞處及如何優雅地終止執行緒，那麼還有別的可以終止執行緒的方法嗎？答案是肯定的，它就是我們今天要分享的——執行緒中斷。下面的這斷程式碼大家應該再熟悉不過了，執行緒休眠需要捕獲或者丟擲

一文搞懂Raft演算法

raft是工程上使用較為廣泛的強一致性、去中心化、高可用的分散式協議。在這裡強調了是在工程上，因為在學術理論界，最耀眼的還是大名鼎鼎的Paxos。但Paxos是：少數真正理解的人覺得簡單，尚未理解的人覺得很難，大多數人都是一知半解。本人也花了很多時間、看了很多材料也沒有真正理解。直到看到raft的論文，兩

一文搞懂如何用Python爬取上市公司資訊

1. 概念準備 Python基本概念 tb.to_csv(r'1.csv', mode='a', encoding='utf_8_sig', header=1, index=0) r意思是強制不轉義字串 TableTableTable型表格

一文搞懂裝飾者模式

常見設計模式：工廠模式，單例模式，裝飾器模式，代理模式，介面卡模式等 Java中IO使用的是裝飾設計模式：抽象構件：抽象被裝飾者，一般是介面具體構件：具體被裝飾者，實現抽向構件抽象角色：抽象裝飾者，抽象角色也去實現抽向構件：多型使用抽象構件做成員變數

一文搞懂 deconvolution、transposed convolution、sub-­pixel or fractional convolution