一種基於CNN的自動化提取n-gram feanture的文字分類模型

今天寫的部落格主要參考了清華大學黃民烈老師團隊2018年在IJCAI上發表的paper《Densely Connected CNN with Multi-scale Feature Attention for Text Classification》。
這篇paper其實就是使用基於CNN的網路來進行文字的情感分類，但是它針對的問題是傳統的多層次的CNN網路使用static視窗來進行卷積，每次針對句子中提取n-gram feature 都是一樣的，如果遇到以下例子，就會影響模型的準確性：
這裡寫圖片描述
在該樣例中，不管是單純的1-gram還是3-gram都不太合適：針對“nice”這個單詞需要1-gram，但是針對“without being patronizing”這個片語需要3-gram。如何設計模型，讓其能夠自動地識別這種區別，是這篇paper主要解決的問題。

在正式介紹模型之前，作者提出了“a deeper model is more elegant than a wider solution”。因為使用小視窗的deeper model在模型高層次部分，其卷積器真正觀測到的原始句子序列中的視野是越來越大的。於是，參照在影象處理中常見的一種結構，作者設計了一種網路結構如下所示：
這裡寫圖片描述
左邊是模型的邏輯運作示意圖，右邊是模型的真實實現示意圖。其實圖中最需要關注的就是那幾條紅線。假設模型的層次一共是 $l$ 層，那麼第 $l$ 層結果計算公式如下所示：
$X_{l} = f (W_{l}, [X_{1}, X_{2}, . . . . . . . X_{l - 1}])$

])
其中引數矩陣

W_{l}

維度為

W_{l} \in R^{(l - 1) * k * w * k}

，其中w代表了寬度，一個k代表了卷積器的個數，一個k代表了中間詞向量的維度。可以看出這裡面

X_{1}

X_{2}

…

X_{l - 1}

都是維度為

m * k

的矩陣，

m

代表了句子中單詞的個數。在使用卷積處理之後，結果依然是

l - 1

個維度為

m * k

結果矩陣，然後使用矩陣的對位相加操作得當最終的

X_{l}

為

m * k

。

按照這樣的計算方式，最終模型的輸出層有 $X_{1}, X_{2} . . . . X_{l}$ ，每一個矩陣的每一行都代表了以該行號為下標的n-gram，接下來就是設計一種attention從中選擇對分類最有意義的n-gram。整個過程如下圖所示：
這裡寫圖片描述

假設 $x_{l}^{i} \in R^{k}$ 代表第l層下標為i的語義向量，設 $s_{l}^{i} = \sum_{j = 1}^{k} x_{l}^{i} (j)$
$x_{a t t e n}^{i} = \sum_{l = 1}^{L} α_{l}^{i} x_{l}^{i}$
其中 $a l p h a^{i} = s o f t m a x (M L P (s^{i}))$
$s^{i} = [s_{1}^{i}, s_{2}^{i}, . . . . s_{L}^{i}]$
$α^{i} = [α_{1}^{i}, α_{2}^{i}, . . . . . α_{L}^{i}]$
最終句子的表徵為 $X_{a t t e n} = [x_{a t t e n}^{1}, x_{a t t e n}^{2}, . . . . ., x_{a t t e n}^{m}]$

一種基於CNN的自動化提取n-gram feanture的文字分類模型

一種基於CNN的自動化提取n-gram feanture的文字分類模型

文字情感分析(一)：基於詞袋模型(VSM和LSA)和n-gram的文字表示

Magnostics Image-based Search of Interesting Matrix Views for Guided Network Exploration（一種基於網絡信息矩陣圖像的網絡探索方法）

一種基於python的人臉識別開源系統

一種基於NTC的控溫電路及軟件實現

一種基於 Numpy 的 TF-IDF 實現報告

【書摘】一種基於Git的版本管理方案

一種基於STM32的APP和BootLoader設計的方法

一種基於凸優化的影象去噪方法演示

一種新的自動化 UI 測試解決方案 Airtest Project

怎麼通過郵箱發超大附件？介紹一種基於雲服務的方法

一種基於TLS的高階反除錯技術

一種基於TLS的高級反調試技術

NeuralTalk：一種基於Python+numpy使用語句描述影象的多模態遞迴神經網路的例程

【原始碼】NSGA - II：一種基於進化演算法的多目標優化函式

Bert-一種基於深度雙向Transform的語言模型預訓練策略

如何實現大檔案快速傳輸？分享一種基於UDP的解決方案

OCTMAP：一種基於八叉樹的高效概率三維對映框架

一種基於Android Bitmap和陣列操作的簡單卷積影象處理函式

一種基於二叉樹的int32排序演算法