本文介紹了由Sara Sabour，Nicholas Frosst和Geoffrey Hinton所著的論文“膠囊之間的動態路由”。在這篇文章中，我們將描述膠囊的基本概念，並應用膠囊網路（capsnet）檢測MNIST資料集中的數字。在本文最後的第三部分中，我們對其做一個具體的實現。程式碼實現來源於xifengguo，基於Tensorflow的Keras。

CNN所面臨的挑戰

在深度學習中，一個神經元的啟用水平通常被解釋為檢測到特定特徵的可能性。

如果我們將畢加索的肖像畫“Portrait of woman in d`hermine pass”輸入到一個CNN分類器，那麼此分類器有多大機率將其識別為一個真正的人臉？

CNN擅長檢測特徵，但對於特徵（透視、大小、方向）之間的空間關係檢測效果較差。例如，下面的圖片可能會欺騙一個簡單的 CNN模型，使其認為這是一個很好的素描的人的臉。

一個簡單的CNN模型可以正確地提取鼻子、眼睛和嘴巴的特徵，但在進行面部檢測時會錯誤地啟用神經元。由於沒有實現空間方向和大小的匹配，人臉檢測的啟用值會變得過高。

現在，我們假設每個神經元包含特徵的可能性和屬性。例如，它輸出一個包含（可能性，方向，大小）的向量。利用這種空間資訊，我們可以檢測出鼻子、眼睛和耳朵等特徵在方向和大小上的一致性，從而輸出一個低得多的面部檢測啟用值。

論文中並沒有使用術語Neurons，而是使用了Capsules來表明膠囊輸出一個向量，而不是一個單一的標量值。

同變性

從概念上講，CNN模型使用多個神經元和層來捕獲不同的特徵變數：

一個膠囊網路共享相同的膠囊來檢測一個簡單網路中的多個變體。

同變性是可以相互變換的物件的檢測。直觀地說，一個膠囊檢測到臉右旋轉20°（或左旋轉20°），並不是通過匹配一個右旋轉20°的變體來識別到臉部。通過迫使模型在膠囊中學習特徵變數，我們可以用較少的訓練資料更有效地推斷可能的變體。

MNIST資料集包含55000個訓練資料，即每位數5500個樣本。然而，小孩子們不太可能閱讀大量的樣本來學習數字識別。我們現有的深度學習模型包括CNN在利用資料時顯得效率低下。

With feature property as part of the information extracted by capsules, we may generalize the model better without an over extensive amount of labeled data.

膠囊（Capsule）

A capsule is a group of neurons that not only capture the likelihood but also the parameters of the specific feature.

例如，下面的第一行表示由神經元檢測到數字“7”的概率。一個二維膠囊由2個神經元組成。這個膠囊輸出一個二維向量來檢測數字“7”。對於第一張影象的第二排，它輸出向量 $v = (0, 0.9)$ 。向量的大小 $| | v | | = \sqrt{0^{2} + {0.9}^{2}} = 0.9$ 對應檢測到“7”的概率。每一行的第二個影象看起來更像是“1”而不是“7”。因此，其相應的可能性為“7”的概率更小（更小的標量值或向量大小但方向相同）。

在第三行中，我們將影象旋轉20°。該膠囊將產生相同大小但不同方向的向量。這裡，向量的角度代表“7”的旋轉角度。我們可以想象，完全可以在一個膠囊中再增加2個神經元來捕捉大小和寬度。

We call the output vector of a capsule as the activity vector with magnitude represents the probability of detecting a feature and its orientation represents its parameters (properties).

動態路由

動態路由將膠囊分組形成父膠囊，並計算膠囊的輸出。

直覺

我們收集了3個不同大小和方向的相似草圖，並以畫素為單位測量了嘴巴和眼睛的水平寬度。其中 $s^{(1)} = (100, 66), s^{(2)} = (200, 131), s^{(3)} = (50, 33) .$

假設

W_{m} = 2, W_{e} = 3

，對於

s^{(1)}

我們得到一個來自嘴巴和眼睛的投票：
這裡寫圖片描述

我們看到

v_{m}^{(1)}

和

v_{e}^{(1)}

非常相似。當我們用其他的草圖重複此操作時，得到了同樣的發現。因此，嘴巴膠囊和眼睛膠囊可能與父膠囊緊密相關，寬度約為200畫素。從經驗來看，人臉是嘴巴的2倍寬（

W_{m} = 2

），一隻眼睛的3倍寬（

W_{e} = 3

）。所以我們檢測到的父膠囊是一個人臉膠囊。當然，我們可以通過新增更多的屬性，如高度或顏色，使其更準確。在動態路由中，我們用一個變換矩陣

W

去轉換輸入膠囊的向量，構成一個投票，並用相似的投票分組。這些選票最終成為父膠囊的輸出向量。那麼我們怎麼得到

W

呢？只需在深度學習方法中進行：通過成本函式反向傳播。

計算膠囊輸出

對於一個膠囊來說，輸入 $u_{i}$ 和輸出 $v_{j}$ 都是向量。

我們將變換矩陣 $W_{i j}$ 與前一層膠囊的輸出 $u_{i}$ 相乘。例如，對於一個 $p \times k$ 矩陣，將 $u_{i}$ 轉換為 ${\hat{u}}_{j | i}$ ，維度從k變為p， $((p \times k) \times (k \times 1) ⟹ p \times 1)$ 。然後根據權重 $c_{i j}$ 計算加權和 $s_{j}$ 。
這裡寫圖片描述
$c_{i j}$ 為耦合係數，通過迭代的動態路由（將在下面討論）過程計算得到，並且規定 $\sum_{j} c_{i j}$ 和為1，從概念上講， $c_{i j}$ 衡量膠囊 $i$ 有多大可能啟用膠囊 $j$ 。

對於 $s_{j}$ 的啟用函式，我們採用squashing而不是ReLU，所以膠囊的最終輸出向量 $v_{j}$ 的長度在0到1之間。該函式將小向量壓縮為零，大向量壓縮為單位向量。
這裡寫圖片描述

迭代的動態路由

在膠囊中，我們通過迭代的動態路由計算中間值 $c_{i j}$

關於膠囊之間的動態路由的理解（基於Hinton的膠囊網路）

CNN所面臨的挑戰

同變性

膠囊（Capsule）

動態路由

直覺

計算膠囊輸出

迭代的動態路由

關於膠囊之間的動態路由的理解（基於Hinton的膠囊網路）

關於矩陣膠囊與EM路由的理解（基於Hinton的膠囊網路）

動態路由協議（基於RIP協議配置過程）

AD域相關理解（資料來自於網路）

思科項目2實戰（dhcp，動態路由ospf，鏈路捆綁等）

【C語言】動態記憶體分配（malloc,realloc,calloc,free）的基本理解和區別

動態路由協議（RIP）

【Gin-API系列】實現動態路由分組（七）

聊天程序（基於Socket、Thread）

擼代碼--linux進程通信（基於共享內存）

AutoConf自動生成Makefile（基於helloworld簡單例子）

遊戲錄屏直播的圖文教程（基於雲直播平臺）

組件之間的通訊：兄弟組件之間的相互通訊（中央事件總線）

python 爬蟲獲取文件式網站資源（基於python 3.6）

python 爬蟲獲取文件式網站資源完整版（基於python 3.6）

Web App 分層架構（基於 Vue+Router+Vuex）

centos6.9編譯安裝php5.6（基於php-fpm模式）

二進制數與十六進制數之間如何互相轉換（看完秒懂）

制作自己的Setup.exe-程序打包詳解（基於Visual Studio 2015）

python 復制多個文件到指定目錄（基於python 3.X）