Investigating Capsule Networks with Dynamic Routing for Text Classification

阿新 • • 發佈：2018-11-13

探索使用動態路由的膠囊網路進行文字分類，提出三種策略穩定動態路由來減輕噪音膠囊的分佈，這些膠囊可能包含背景資訊，或是訓練不好。膠囊網路獲得很好的分類效果，而且訓練多標籤的效果好於單標籤

1 Introduction

文章或是句子建模是NLP的基礎問題，如果組成，層次，結構都考慮的話，很是複雜。如果一個短語“US election”可能分為政治類，但是無法預測為是否是作者喜歡的，或是作者對於這篇文章的態度是更自由的或是更保守的。

早期的文字建模使用BoW的效果比較差，意味著理解單獨一個詞語獲得n元模型是很重要的，所以word embedding獲得巨大矚目是可以理解的。為了使建模獲得更好的表示，究竟建模獲得了什麼。普遍的方法是把文本當做序列，關注中間特徵，表示模型包括CNN，LSTM，另一個方法是忽略詞的順序，把他們的組成看成一體，包括概率主題模型，和Earth Mover’s Distance based modeling。

這兩種方法的計算視角是不同的，在神經網路中，空間模式聚集在低層，這是為了獲得更高一級的表示。所以，使用迴圈的方式獲得文字建模。例如，CNN的卷積探測器抽取一個向量序列的本地特徵，並採用max-pooling獲得最好的特徵，它層次級式地在多種水平上建立了不同的管道抽取特徵，但是CNN無法有效在網格上覆制特徵。

2 Our Model

模型包括兩層：n-gram的卷積層，原始的膠囊層，卷積膠囊層，和全連線的膠囊層。另外，提出兩個膠囊網路連線這4部分。

2.1 N-gram Convolutional Layer

2.2 Primary Capsule Layer

2.2.1 Child-Parent Relationships

2.3 Dynamic Routing

2.4 Convolutional Capsule Layer

2.5 Fully Connected Capsule Layer

2.6 The Architectures of Capsule Network

Capsule-A和Capsule-B是兩種網路，不同之處是如何連線這四部分。

Capsule-A使用embedding層把每一個詞對映為300維（V=300）的詞向量，傳入3-gram的卷積層，32個filter（K

1=3 ），stride=1，ReLU啟用函式，其他層都是capsule層，由B*d個原始capsule層開始，有32個filter（C=32），再傳入3*C*d*d（K2=3 ）的卷積膠囊層，有16個filter（D=16），最優是一個全連線膠囊層。

每個膠囊有16維（d=16），他們的norm可以表示現有capsule的概率，膠囊層由轉換矩陣連線，每個連線都和路由係數相乘，路由西遊動態的由同意機制計算獲得。

Capsule-B和Capsule-A相似，不同的是在卷積層使用的n-gram的視窗是3，4，5，最後的全連線膠囊層輸入到average-pooling層獲得最後的膠囊，所以，capsule-B可以更好捕獲文字的表示資訊。

3 Experimental Setup

3.1 Experimental Datasets

3.2 Implementation Details

word2vec=300

batch size：AG=50，other=25

優化器：Adam

learning rate=1e-3

3.3 Baseline methods

4 Experimental Results

4.1 Quantitative Evaluation

4.2 Ablation Study

5 Single-Label to Multi-Label Text Classification

與單標籤相比，多標籤的類別空間從n擴充套件到2n ，所以需要更多的訓練，

5.1 Connection Strength Visualization

為了清楚地顯示膠囊層之間的連線強度，我們移除卷積膠囊層並且直接使初級膠囊層和全連線膠囊層，其中初級膠囊表示膠囊形式的N-gram短語。

連線強度顯示了每個初級膠囊對於文字類別的重要性，就像一個平行關注機制（parallel attention mechanism）。這個可以讓膠囊網路識別文字中的多個類別，即使模型是在單標籤文件上進行培訓。由於空間有限，我們選擇了多個來自Reuters Multi-label的標籤文件，其類別標籤（即Interest Rates利率和Money/Foreign Exchange貨幣/外匯交易）通過我們的模型以高置信度（p> 0.8）被正確預測（完全正確），這些資料在表6中有報告出來。像”Interest Rates”和”Money/Foreign Exchange”這類的特定短語用紅色突出顯示。我們使用標籤雲來顯示利率和貨幣/外匯類別的3-gram短語。連線強度越大，字型越大。從結果中，我們觀察到膠囊網路可以正確識別並劃分關於文字類別的重要短語。表6所示（底線）的直方圖，用於顯示初級膠囊和全連線膠囊之間的連線強度強度。

6 Related Work

提出了一種新型的神經網路，利用膠囊的概念來改善CNN和RNN的表徵侷限性。（Hinton等，2011）首先介紹了“膠囊”的概念，以解決CNN和RNN的代表性侷限性。具有變換矩陣的膠囊允許網路自動學習部分 - 整體關係。因此，（Sabour等，2017）提出了膠囊網路，其用向量輸出膠囊代替了CNN的標量輸出特徵檢測器，並通過協議路由來代替最大池化。

7 Conclusion

Investigating Capsule Networks with Dynamic Routing for Text Classification

探索使用動態路由的膠囊網路進行文字分類，提出三種策略穩定動態路由來減輕噪音膠囊的分佈，這些膠囊可能包含背景資訊，或是訓練不好。膠囊網路獲得很好的分類效果，而且訓練多標籤的效果好於單標籤 1 Introduction 文章或是句子建模是NLP的基礎問題，如果組成，層次，結構都考慮的話，很是複雜

Convolutional Patch Networks with Spatial Prior for Road Detection and Urban Scene Understanding

line evel linux 程序 providing form ram -s visio Convolutional Patch Networks with Spatial Prior for Road Detection and Urban Sce

論文筆記 Locality-Sensitive Deconvolution Networks with Gated Fusion for RGB-D Indoor Semantic Segmentation

extract pear rain bsp ble rgb oge nbsp png 用於RGB-D室內語義分割的具有門控融合的局部敏感反卷積網絡 abstract problem: indoor semantic segmentation using RGB

Information Aggregation via Dynamic Routing for Sequence Encoding

對文字序列進行編碼獲得向量有了很多的工作，而對於如何把前面網路（RNN/CNN的輸出）獲得的向量進行處理獲得特定長度的向量的工作比較少。通常使用簡單的max/average pooling，是自下而上的，並且消極的資訊聚集，缺少特定任務資訊的引導。本文中，提出了一個聚集機制，即動態路由機制來獲得固定

《Character-level convolutional networks for text classification》論文網路結構解讀

1.資料比如有一條資料【x=“Simultaneous Tropical Storms are Very Rare”】.則把該句子的大寫字母全部表示成小寫，構建char字符集的詞彙表如下（這裡詞彙表長度為70（69+1，即其他的不在詞彙表的表示為0））：資料可以表示為x=70X

Recurrent Neural Network for Text Classification with Multi-Task Learning

引言 Pengfei Liu等人在2016年的IJCAI上發表的論文，論文提到已存在的網路都是針對單一任務進行訓練，但是這種模型都存在問題，即缺少標註資料，當然這是任何機器學習任務都面臨的問題。為了應對資料量少，常用的方法是使用一個無監督的預訓練模型，比如詞向量，實驗中也取得了不錯

Learning Structured Representation for Text Classification via Reinforcement Learning 學習筆記

ctu recursive fec 註釋 css 進攻 imp column converge Representation learning ：表征學習，端到端的學習 pre-specified 預先指定的 demonstrate 論證;證明，證實;顯示

Week1.3 Simple deep learning for text classification

Neural networks for words（and characters) 在本節中我們將學習如何將神經網路用於文字分類，還將學習卷積神經網路相關的原理. 回顧–Bag of words way 在前面課程中，我們學習瞭如何將一段文本當作一系列word

《Universal Language Model Fine-tuning for Text Classification》翻譯

ULMFiT-用於文字分類的通用語言模型微調翻譯自《Universal Language Model Fine-tuning for Text Classification》 Jeremy Howard* fast.ai | University of San F

機器學習（二十）——文字分類的事件模型（Event models for text classification）

為了結束我們對生成性學習演算法的討論，讓我們再來談談一個專門用於文字分類的模型。雖然我們已經介紹了樸素貝葉斯，但它在許多分類問題例如文字分類上都會很好地工作，會有一個相關的模型做得更好。在文字分類的具體背景下，提出的樸素貝葉斯採用所謂的多元伯努利事件模型。在這個模型中，我們假

Effective Use ofWord Order for Text Categorization with Convolutional Neural Networks（閱讀理解）

一篇公開在2014年的文章，從現在的角度來看這篇文章的話，我們發現作者提出的方法很難算是主流方法，但在當時也有一定的啟發意義。這裡我們就簡單介紹一下這篇文章。本文提出了將CNN直接應用於高維度的文字資料上，為我們提供了兩者CNN網路Seq-CNNAs a running to

[Bash] Search for Text with `grep`

In this lesson, we’ll use grep to find text patterns. We’ll also go over some of the flags that grep has that can be combined together

深度學習論文筆記：Deep Residual Networks with Dynamically Weighted Wavelet Coefficients for Fault Diagnosis of Planetary Gearboxes

這篇文章將深度學習演算法應用於機械故障診斷，採用了“小波包分解+深度殘差網路(ResNet)”的思路，將機械振動訊號按照故障型別進行分類。文章的核心創新點：複雜旋轉機械系統的振動訊號包含著很多不同頻率的衝擊和振盪成分，而且不同頻帶內的振動成分在故障診斷中的重要程度經常是不同的，因此可以按照如下步驟設計深度

Investigating Capsule Networks with Dynamic Routing for Text Classification

1 Introduction

2 Our Model

2.1 N-gram Convolutional Layer