神經網路中concatenate和add層的不同

阿新 • • 發佈：2020-10-25

在網路結構的設計上，經常說DenseNet和Inception中更多采用的是concatenate操作，而ResNet更多采用的add操作，那麼這兩個操作有什麼異同呢？

concatenate操作是網路結構設計中很重要的一種操作，經常用於將特徵聯合，多個卷積特徵提取框架提取的特徵融合或者是將輸出層的資訊進行融合，而add層更像是資訊之間的疊加。

This reveals that both DenseNets and ResNets densely aggregate features from prior layers and their essential difference is how features are aggregated: ResNets aggregate features by summation and DenseNets aggregate them by concatenation.

Resnet是做值的疊加，通道數是不變的，DenseNet是做通道的合併。你可以這麼理解，add是描述影象的特徵下的資訊量增多了，但是描述影象的維度本身並沒有增加，只是每一維下的資訊量在增加，這顯然是對最終的影象的分類是有益的。而concatenate是通道數的合併，也就是說描述影象本身的特徵增加了，而每一特徵下的資訊是沒有增加。

在程式碼層面就是ResNet使用的都是add操作，而DenseNet使用的是concatenate。

這些對我們設計網路結構其實有很大的啟發。

通過看keras的原始碼，發現add操作，

def _merge_function(self, inputs):
    output = inputs[0]
    for i in range(1, len(inputs)):
        output += inputs[i]
    return output

執行的就是加和操作，舉個例子

import keras
input1 = keras.layers.Input(shape=(16,))
x1 = keras.layers.Dense(8, activation='relu')(input1)
input2 = keras.layers.Input(shape=(32,))
x2 = keras.layers.Dense(8, activation='relu')(input2)
added = keras.layers.add([x1, x2])
out = keras.layers.Dense(4)(added)
model = keras.models.Model(inputs=[input1, input2], outputs=out)
model.summary()

打印出來模型結構就是：

__________________________________________________________________________________________________
Layer (type) Output Shape Param # Connected to
==================================================================================================
input_1 (InputLayer) (None, 16) 0
__________________________________________________________________________________________________
input_2 (InputLayer) (None, 32) 0
__________________________________________________________________________________________________
dense_1 (Dense) (None, 8) 136 input_1[0][0]
__________________________________________________________________________________________________
dense_2 (Dense) (None, 8) 264 input_2[0][0]
__________________________________________________________________________________________________
add_1 (Add) (None, 8) 0 dense_1[0][0]
dense_2[0][0]
__________________________________________________________________________________________________
dense_3 (Dense) (None, 4) 36 add_1[0][0]
==================================================================================================
Total params: 436
Trainable params: 436
Non-trainable params: 0

__________________________________________________________________________________________________

這個比較好理解，add層就是接在dense_1,dense_2後面的是一個連線操作，並沒有訓練引數。

相對來說，concatenate操作比較難理解一點。

if py_all([is_sparse(x) for x in tensors]):
    return tf.sparse_concat(axis, tensors)
else:
    return tf.concat([to_dense(x) for x in tensors], axis)

通過keras原始碼發現，一個返回sparse_concate，一個返回concate，這個就比較明朗了，

concate操作，舉個例子

t1 = [[1, 2, 3], [4, 5, 6]]
t2 = [[7, 8, 9], [10, 11, 12]]
tf.concat([t1, t2], 0) ==> [[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]]
tf.concat([t1, t2], 1) ==> [[1, 2, 3, 7, 8, 9], [4, 5, 6, 10, 11, 12]]

# tensor t3 with shape [2, 3]
# tensor t4 with shape [2, 3]
tf.shape(tf.concat([t3, t4], 0)) ==> [4, 3]
tf.shape(tf.concat([t3, t4], 1)) ==> [2, 6]

事實上，是關於維度的一個聯合，axis=0表示列維，1表示行維，沿著通道維度連線兩個張量。另一個sparse_concate則是關於稀疏矩陣的級聯，也比較好理解。

神經網路中concatenate和add層的不同

神經網路中concatenate和add層的不同

淺談C/C++中指標和陣列的不同

【神經網路學習筆記】所有神經網路的關係和分類－附思維導圖

神經網路中的啟用函式是幹是什麼用的？

J. Cheminform. | 基於化學基因組學中深度和淺層學習預測藥物特異性

神經網路中的權值初始化

java中entity和dao層生成之逆向工具

神經網路（model.summary())模型層的轉換與層引數詳解

tensorflow中的正則化函式在_人工智慧演算法問題——正則化解決神經網路中的過度擬合...

神經網路中的降維和升維方法 (tensorflow & pytorch)

CNN卷積神經網路中的stride、padding、channel以及特徵圖尺寸的計算

神經網路中由於傳入物件所以能夠通過修改物件的值從而修改權重

計算機網路通訊協議和七層模型

【學術】如何在神經網路中選擇正確的啟用函式

程式碼筆記4 一個batch-size中的資料是怎麼在神經網路中計算的

神經網路前向和後向傳播推導（一）：概覽

在pytorch中儲存和載入神經網路

基於淺層神經網路（全連線網路）的強化學習演算法（Reinforce）在訓練過程中出現梯度衰退（degenerate）的現象

最新研究：一個生物神經元可以和 5 到 8 層人工神經網路相匹敵

【視訊】LSTM神經網路架構和原理及其在Python中的預測應用|資料分享

神經網路中concatenate和add層的不同

相關推薦