本文介紹了Hinton的第二篇膠囊網路論文“Matrix capsules with EM Routing”，其作者分別為Geoffrey E Hinton、Sara Sabour和Nicholas Frosst。我們首先討論矩陣膠囊並應用EM（期望最大化）路由對不同角度的影象進行分類。對於那些想了解具體實現的讀者，本文的第二部分是一個關於矩陣膠囊和EM路由的tensorflow實現。

CNN所面臨的挑戰

在上一篇關於膠囊的文章中，我們提到了CNN在探索空間關係中面臨的挑戰，並討論了膠囊網路如何解決這些問題。讓我們回顧一下CNN在分類相同型別但不同角度的影象時所面臨的一些重要的挑戰。例如，正確地分類不同的方向的人臉。

從概念上講，CNN需要訓練多個神經元來處理不同的特徵方向（0°，20°，20°），並用一個頂層的人臉檢測神經元檢測人臉。

為了解決這個問題，我們添加了更多的卷積層和特徵對映。然而，這種方法傾向於記住資料集，而不是概括解決方案。它需要大量的訓練資料，去覆蓋不同的變體以及避免過擬合。MNIST資料集包含55000個訓練資料，每個數字有5500個樣本。然而，小孩子們根本不需要這麼多樣本來學習數字識別。我們現有的深度學習模型，包括CNN，在利用資料上都顯得非常低效。

對抗攻擊

對於將個別特徵進行簡單的移動，旋轉或大小調整的對抗樣本，CNN顯得非常脆弱。

我們可以對影象新增微小的不可見的更改，從而輕鬆地欺騙一個深層神經網路。左邊的圖片被CNN正確地歸類為熊貓。通過選擇性地從中間圖片向熊貓圖片中新增微小的變化，CNN居然把右邊的合成影象歸類為長臂猿。

（圖片來自OpenAI）

膠囊

一個膠囊能夠捕捉特徵的可能性及其變體。因此，膠囊不僅能檢測到特徵，還能通過訓練來學習和檢測變體。

例如，同一網路層可以檢測順時針旋轉的面部。

同變性是可以相互變換的物件的檢測。直觀地說，一個膠囊檢測到臉右旋轉20°（或左旋轉20°），並不是通過匹配一個右旋轉20°的變體來識別到臉部。通過迫使模型在膠囊中學習特徵變數，我們可以用較少的訓練資料更有效地推斷可能的變體。在CNN中，最終的標籤是視角不變的，即頂層神經元檢測到一個人臉，但丟失了旋轉角度資訊。對於同變性來說，像旋轉角度這類變化的資訊被儲存在膠囊裡面。保留這些空間方向的資訊可以幫助我們避免對抗樣本攻擊。

矩陣膠囊

一個矩陣膠囊同神經元一樣可以捕捉啟用（可能性），但也捕捉到了一個4x4的姿態矩陣。在計算機圖形學中，一個姿態矩陣定義了一個物體的平移和旋轉，它相當於一個物體的視角的變化。

(圖片來源於論文Matrix capsules with EM routing)

例如，下面的第二行影象代表上面同一物件的不同視角。在矩陣膠囊中，我們訓練模型來捕捉姿態資訊（方向、方位角等）。當然，就像其他深度學習方法一樣，這僅僅是我們的意圖，並不能得到保證。

(圖片來源於論文Matrix capsules with EM routing)

EM（期望最大化）路由的目的是通過使用聚類技術（EM）將膠囊分組形成一個部分-整體關係。在機器學習中，我們使用EM聚類簇將資料點聚類為高斯分佈。例如，我們通過兩個高斯分佈G1=N(μ1,σ12)” role=”presentation” style=”position: relative;”>G1=N(μ1,σ21)建模，將下面的資料聚類為兩簇。然後我們用對應的高斯分佈來表示資料點。

在人臉檢測這個示例中，低層中每一個嘴巴、眼睛和鼻子的檢測膠囊都對其可能的父膠囊的姿態矩陣進行預測（投票）。每個投票都是父膠囊的姿態矩陣的一個預測值，它通過將自己的姿態矩陣乘以訓練得到的變換矩陣W” role=”presentation” style=”position: relative;”>WW來計算。
v=MW” role=”presentation”>v=MWv=MW

我們將在執行時使用EM路由，將膠囊分組到父膠囊中：

例如，如果鼻子，嘴和眼睛膠囊都有一個相似的姿態矩陣值的投票，那麼我們將他們聚集在一起形成父膠囊：人臉膠囊。

A higher level feature (a face) is detected by looking for agreement between votes from the capsules one layer below. We use EM routing to cluster capsules that have close proximity of the corresponding votes.

高斯混合模型 & 期望最大化（EM）

我們先來了解一下EM。高斯混合模型將資料點聚類為混合高斯分佈，由均值μ” role=”presentation” style=”position: relative;”>μ描述。

(圖片來源於Wikipedia)

對於一個兩叢集的高斯混合模型，我們先隨機的初始化叢集G1=(μ1,σ12)” role=”presentation” style=”position: relative;”>G1=(μ1,σ21)分佈下，看到所有的資料點的概率最大化。

在給定集合G1” role=”presentation” style=”position: relative;”>G1的概率為：

P(x|G1)=1σ12πe−(x−μ1)2/2σ12” role=”presentation”>P(x|G1)=1σ12π−−√e−(x−μ1)2/2σ21P(x|G1)=1σ12πe−(x−μ1)2/2σ12

在每次迭代中，我們開始於2個高斯分佈，之後會根據資料點重新計算其μ” role=”presentation” style=”position: relative;”>μ。

最終，我們會收斂到兩個高斯分佈，它使觀察到的資料點的似然最大化。

使用EM進行協議路由（Routing-By-Agreement）

現在，我們探討更多的細節。一個更高層次的特徵（一張臉）通過尋找來自下一層膠囊的投票的協商被檢測到。一個從膠囊i” role=”presentation” style=”position: relative;”>i計算得到。

vij=MiWij” role=”presentation”>vij=MiWijvij=MiWij
一個膠囊i” role=”presentation” style=”position: relative;”>ii通過成本函式和反向傳播學到。它不僅學習了人臉的組成，而且能夠保證在經過變換後父膠囊與其子元件的姿態資訊匹配。

下面是矩陣膠囊的協議路由（Routing-By-Agreement）的視覺化圖。姿態矩陣Ti” role=”presentation” style=”position: relative;”>Ti)

(圖片來源於Geoffrey Hinton)

即使視角改變，姿態矩陣和投票也會以協調的方式變化。在我們的例子中，當臉部旋轉時，選票的位置可能會從紅色點變為粉紅色點。然而，EM路由是基於鄰近度的，它仍然可以將相同的子膠囊聚集在一起。因此，變換矩陣對於物體的任何視角都是相同的：視角不變性。用於物件的不同方向，我們只需要一組轉換矩陣和一個父膠囊。

膠囊分配

EM路由在執行時將膠囊分組形成一個更高級別的膠囊。它同時會計算分配概率rij” role=”presentation” style=”position: relative;”>rij也將是零。

計算膠囊的啟用值和姿態矩陣

膠囊輸出的計算不同於深度網路的神經元。在EM聚類中，我們通過高斯分佈來表示資料點。在EM路由中，我們仍用高斯模型對父膠囊的姿態矩陣進行建模。姿態矩陣是一個4×4矩陣，即16個元素。我們用具有16個μ” role=”presentation” style=”position: relative;”>μ表示姿態矩陣的一個元素。

令vij” role=”presentation” style=”position: relative;”>vij個元素。我們應用高斯概率密度函式：

P(x)=1σ2πe−(x−μ)2/2σ2” role=”presentation”>P(x)=1σ2π−−√e−(x−μ)2/2σ2P(x)=1σ2πe−(x−μ)2/2σ2
來計算vijh” role=”presentation” style=”position: relative;”>vhijvijh的高斯模型的概率：
pi|jh=12π(σjh)2exp(−(vijh−μjh)22(σjh)2)” role=”presentation”>phi|j=12π(σhj)2−−−−−−√exp(−(vhij−μhj)22(σhj)2)pi|jh=12π(σjh)2exp(−(vijh−μjh)22(σjh)2)
取自然對數：
ln(pi|jh)=ln12π(σjh)2exp(−(vijh−μjh)22(σjh)2)=−ln(σjh)−ln(2π)2−(vijh−μjh)22(σjh)2” role=”presentation” style=”position: relative;”>ln(phi|j)=ln12π(σhj)2−−−−−−√exp(−(vhij−μhj)22(σhj)2)=−ln(σhj)−ln(2π)2−(vhij−μhj)22(σhj)2ln(pi|jh)=ln12π(σjh)2exp(−(vijh−μjh)22(σjh)2)=−ln(σjh)−ln(2π)2−(vijh−μjh)22(σjh)2\rm{ln}(p^h_{i|j})=ln\frac{1}{\sqrt{2\pi(\sigma^h_j)^2}}\rm {exp}(-\frac{(v^h_{ij}-\mu^h_{j})^2}{2(\sigma ^h_j)^2}) \\

我們估算一下啟用一個膠囊的成本。成本越低，膠囊就越有可能被啟用。如果成本高，投票就不匹配父高斯分佈，因此被啟用的概率就越低。

令costij” role=”presentation” style=”position: relative;”>costij的成本，它是對數似然取負：

costijh=−ln(Pi|jh)” role=”presentation”>costhij=−ln(Phi|j)costijh=−ln(Pi|jh)
由於低層的膠囊與膠囊j” role=”presentation” style=”position: relative;”>jj按比例計算成本。所有下層膠囊的成本為：
costjh=∑irijcostijh=∑i−rijln(pi|jh)=∑irij((vijh−μjh)22(σjh)2+ln(σjh)+ln(2π)2)=∑irij(σjh)22(σjh)2+(ln(σjh)+ln(2π)2)∑irij=(ln(σjh)+k)∑irij其中k为常量” role=”presentation” style=”position: relative;”>costhj=∑irijcosthij=∑i−rijln(phi|j)=∑irij((vhij−μhj)22(σhj)2+ln(σhj)+ln(2π)2)=∑irij(σhj)22(σhj)2+(ln(σhj)+ln(2π)2)∑irij=(ln(σhj)+k)∑irij其中k為常量costjh=∑irijcostijh=∑i−rijln(pi|jh)=∑irij((vijh−μjh)22(σjh)2+ln(σjh)+ln(2π)2)=∑irij(σjh)22(σjh)2+(ln(σjh)+ln(2π)2)∑irij=(ln(σjh)+k)∑irij其中k為常量cost_{j}^h=\sum_i r_{ij}cost_{ij}^h \\ =\sum_i -r_{ij}ln(p^h_{i|j}) \\ =\sum_i r_{ij}(\frac{(v^h_{ij}-\mu^h_j)^2}{2(\sigma^h_j)^2}+ln(\sigma^h_{j})+\frac{ln(2\pi)}{2}) \\ =\frac{\sum_i r_{ij}(\sigma^h_j)^2}{2(\sigma^h_j)^2}+(ln(\sigma^h_j)+\frac{ln(2\pi)}{2})\sum_ir_{ij} \\
我們用下面的公式來確定膠囊j” role=”presentation” style=”position: relative;”>jj是否會被啟用：
aj=sigmoid(λ(bj−∑hcostjh))” role=”presentation”>aj=sigmoid(λ(bj−∑hcosthj))aj=sigmoid(λ(bj−∑hcostjh))

原文中，“−bij” role=”presentation” style=”position: relative;”>−bij。相反，我們通過反向傳播和成本函式來訓練它。

rij” role=”presentation” style=”position: relative;”>rij首先被初始化為1，然後每次路由迭代後增加1。論文並沒有說明細節，我們建議在實現中採用不同的方案進行試驗。

EM路由

利用EM路由迭代計算出姿態矩陣和輸出膠囊的啟用值。EM法交替地呼叫步驟E和步驟M，將資料點擬合到混合高斯模型。步驟E確定父膠囊每個資料點分配的概率rij” role=”presentation” style=”position: relative;”>rij將構成父膠囊的4×4姿態矩陣。

(圖片來源於論文Matrix capsules with EM routing)

上面的a” role=”presentation” style=”position: relative;”>a。

步驟M的細節：

在步驟M中，我們計算μ” role=”presentation” style=”position: relative;”>μμ（溫度引數的倒數）增加1。

步驟E的細節：

步驟E中，我們基於新的μ” role=”presentation” style=”position: relative;”>μμ，分配則增加。

We use the aj” role=”presentation” style=”position: relative;”>aj to form the 4x4 pose matrix.

反向傳播與EM路由的角色

在CNN中，我們用下面公式計算一個神經元的啟用值：

yj=ReLU(∑iWij∗xi+bj)” role=”presentation”>yj=ReLU(∑iWij∗xi+bj)yj=ReLU(∑iWij∗xi+bj)
然而，一個膠囊的輸出，包括啟用值和姿態矩陣，是通過EM路由計算得到的。我們使用EM路由計算父膠囊的輸出，基於變換矩陣W” role=”presentation” style=”position: relative;”>WW。

在EM路由中，我們通過計算分配概率rij” role=”presentation” style=”position: relative;”>rij來量化子膠囊和父膠囊之間的連線。這個值很重要，但生命週期短暫。我們在EM路由計算前為每一個數據點使用均勻分佈重新將它初始化。在任何情況，無論訓練或測試，我們使用EM路由計算膠囊的輸出。

損失函式（使用Spread損失）

矩陣膠囊需要一個損失函式來訓練W” role=”presentation” style=”position: relative;”>W）的損失被定義為：

Li=(max(0,m−(at−ai)))2” role=”presentation”>Li=(max(0,m−(at−ai)))2Li=(max(0,m−(at−ai)))2
at” role=”presentation” style=”position: relative;”>

《Matrix capsules with EM Routing》新膠囊網路

CNN所面臨的挑戰

對抗攻擊

膠囊

矩陣膠囊

高斯混合模型 & 期望最大化（EM）

使用EM進行協議路由（Routing-By-Agreement）

膠囊分配

計算膠囊的啟用值和姿態矩陣

EM路由

反向傳播與EM路由的角色

損失函式（使用Spread損失）

《Matrix capsules with EM Routing》新膠囊網路

Matrix Capsule with EM Routing

學習筆記《Dynamic Routing Between Capsules》-（“膠囊”網路之區域性空間關係）

Hinton膠囊網路論文《Dynamic Routing between Capsules》的程式碼正式開源

關於矩陣膠囊與EM路由的理解（基於Hinton的膠囊網路）

曲速未來警惕：新的網路釣魚活動將Ursnif放入對話執行緒中

Investigating Capsule Networks with Dynamic Routing for Text Classification

北京網站建設哪家公司好？北京新起點網路專業的網站建設推廣公司

膠囊網路的簡單介紹

keras 處理文字，分類，數值資料，並新增進網路的步驟和方法

強強聯合！螞蟻金服與新炬網路戰略合作，共同致力於國產資料庫的技術推廣和生態建設

軍犬輿情：新時代網路輿情的特點及輿情監測的有效舉措

Docker釋出新的網路專案，並開始招聘中國區主管

介紹膠囊網路 capsule networks

關於膠囊之間的動態路由的理解（基於Hinton的膠囊網路）

Capsule 膠囊網路學習筆記

看完這篇，別說你還不懂Hinton大神的膠囊網路，capsule network

膠囊網路（Capsule Network）的TensorFlow實現

卷及網路的弱點，有人想用膠囊網路給解決掉

膠囊網路架構

《Matrix capsules with EM Routing》新膠囊網路

CNN所面臨的挑戰

對抗攻擊

膠囊

矩陣膠囊

高斯混合模型 & 期望最大化（EM）

使用EM進行協議路由（Routing-By-Agreement）

膠囊分配

計算膠囊的啟用值和姿態矩陣

EM路由

反向傳播與EM路由的角色

損失函式（使用Spread損失）

相關推薦