NLP經典模型入門-TextRNN與TextRCNN

阿新 • • 發佈：2020-08-07

前言：筆者之前是cv方向，因為工作原因需要學習NLP相關的模型，因此特意梳理一下關於NLP的幾個經典模型，由於有基礎，這一系列不會關注基礎內容或者公式推導，而是更側重對整體原理的理解。順便推薦兩個很不錯的github專案——開箱即用的中文教程以及演算法更全但是有些跑不通的英文教程。

一. RNN與LSTM

RNN

CNN與RNN的對比如上圖所示，最大的區別是RNN的神經元之間彼此是關聯的，因此RNN特別適合做序列模型。

RNN的中間層每個神經元的計算公式如下所示：

LSTM

上面的公式中，啟用函式一般使用sigmoid或者tanh。這就導致，在水平方向上，也很容易出現梯度彌散，而且後面的序列比較難獲取前面序列的資訊，因此出現了LSTM。LSTM是長短期記憶網路，核心就在於有上下兩條之路。下路更關注短序列之間的資訊傳遞，上路則更關注把資訊傳遞得更長，LSTM的網路結構如下所示：

LSTM的最小單元構成圖和具體公式如下：

x號是LSTM特有的門機制，它有兩個輸入，一個輸入是原始資訊，另一個輸入則一般經過啟用函式被約束到0~1之間、可以看做一個開關。兩者相乘，原始資訊會按照開關大小進行保留。先看\(C_{t-1}\)經過的路線：

最左面的x號，長時間記憶有多少保留了下來，開關多少由當前輸入計算得來
中間的+號，長時間記憶會把當前輸入的資訊新增進來，這裡當前輸入會自己同時產生原始資訊並做開關，有點類似self-attention的做法
最右面的x號，融合後的長時間記憶做開關，決定當前輸入有多少流入下一層

Bi-LSTM

如上圖所示。其實就是把序列正著來一遍然後反著來一遍，然後相同位置的輸入拿出來直接連線在一起作為當前位置神經元的最終輸出。可以更好地捕捉上下文資訊。同理，RNN也可以搞雙向，本質上只是模組不同，一個是LSTM模組另一個是RNN塊。LSTM更先進一些。

LSTM在Pytorch中可以直接使用：

# define
self.lstm = nn.LSTM(config.embed, config.hidden_size, config.num_layers,
bidirectional=True, batch_first=True, dropout=config.dropout)
## num_layers: 若干個lstm堆疊
## hidden_size：中間隱藏的特徵數量

# use
out, _ = self.lstm(embed)

二. TextRNN與TextRCNN

TextRNN比較簡單，一般在embedding後，接若干個lstm後直接接fc，然後計算損失函式即可。可以加入cat操作連綴embed和feature，具體操作間RCNN

out = self.embedding(x)  # [batch_size, seq_len, embeding]
out, _ = self.lstm(out)
out = self.fc(out[:, -1, :])  # 句子最後時刻的 hidden state

TextRCNN的一個核心思想是引入最大池化層，模仿CNN的那種效果，並且使用雙向的RNN(這裡直接用更好的LSTM替代了)

embed = self.embedding(x)  # [batch_size, seq_len, embeding]
out, _ = self.lstm(embed)
out = torch.cat((embed, out), 2) # seq_len固定，連綴特徵長度
out = F.relu(out)
out = out.permute(0, 2, 1)
out = self.maxpool(out).squeeze() # 此處seq_len會消失
out = self.fc(out)

NLP經典模型入門-TextRNN與TextRCNN

一. RNN與LSTM

RNN

LSTM

Bi-LSTM

二. TextRNN與TextRCNN

NLP經典模型入門-TextRNN與TextRCNN

NLP經典模型入門-seq2seq

博弈論經典模型解析（入門級）

NLP中基礎Seq2Seq模型的分析與實現

pytorch模型預測結果與ndarray互轉方式

Python通過TensorFLow進行線性模型訓練原理與實現方法詳解

Android開發之InetAddress基礎入門簡介與原始碼例項

Laravel框架原始碼解析之模型Model原理與用法解析

tensorflow模型的save與restore,及checkpoint中讀取變數方式

淺談JAVA Actor模型的一致性與隔離性

基於MindSpore詳解推薦模型的原理與實踐

全網最詳細的深度學習經典模型RESNET解析【京東特邀專家朱利明】（bilibili視訊學習）（程式碼解析）

Linux指令入門-檔案與許可權

Istio入門實戰與架構原理——使用Docker Compose搭建Service Mesh

Kubeflow實戰: 入門介紹與部署實踐

[PyTorch 學習筆記] 3.1 模型建立步驟與 nn.Module

【小白學PyTorch】19 TF2模型的儲存與載入

HDU-6787 Chess 線性dp 經典模型改

Django 使用教程8 模型類關係與查詢

網路流經典模型之一：最大權閉合子圖（壽司餐廳）

NLP經典模型入門-TextRNN與TextRCNN

一. RNN與LSTM

RNN

LSTM

Bi-LSTM

二. TextRNN與TextRCNN

相關推薦