NLP文字分類學習筆記4.1：基於RCNN的文字分類

阿新 • • 發佈：2022-04-08

迴圈卷積神經網路RCNN

1、CNN與RNN缺點

CNN通過視窗獲取特徵，視窗尺寸不合適就會捕獲不到好特徵，視窗也不能太大，這樣就捕獲不到全域性的特徵，所以它類似於傳統的N-gram
RNN使用最後的輸出作為特徵，使得序列後的詞會比前面的詞更加重要，從而影響捕獲準確的特徵

2、CNN與RNN優點

CNN使用池化，能夠捕獲重要的特徵
RNN處理序列有優勢，能夠捕獲全域性特徵

所以Recurrent Convolutional Neural Networks for Text Classification這篇論文將兩者優點結合起來，提出下圖模型RCNN

圖中虛線圈出部分，實際上是一個雙向迴圈網路（之後用雙向LSTM實現，儘管論文中並不是，但也類似）

之後將所有時刻的輸出和輸入的詞向量拼接起來（即圖中的\(y^{(2)}_3\)，\(y^{(2)}_4\)等，圖中並未表示完整），論文中拼接的公式為，其中\(c_l(w_i)和c_r(w_i)\)為雙向LSTM的兩個輸出，\(e(w_i)\)為詞向量

\[x_i=[c_l(w_i);e(w_i);c_r(w_i)] \]

然後經過啟用函式tanh（圖中未畫出，實現時採用relu）
之後對每一維進行最大池化，組成新的特徵向量
最後連線全連線層實現分類

pytorch實現基於RCNN的文字分類

對於10分類任務，在測試集分類準確率為87.27%，關於網路結構程式碼如下，更多程式碼詳細介紹見

NLP文字分類學習筆記0

import json
import pickle
import torch
import torch.nn.functional as F
import torch.nn as nn
import numpy as np


class Config(object):

    def __init__(self, embedding_pre):
        self.embedding_path = 'data/embedding.npz'
        self.embedding_model_path = "mymodel/word2vec.model"

        self.train_path = 'data/train.df'  # 訓練集
        self.dev_path = 'data/valid.df'  # 驗證集
        self.test_path = 'data/test.df'  # 測試集

        self.class_path = 'data/class.json'  # 類別名單
        self.vocab_path = 'data/vocab.pkl'  # 詞表
        self.save_path ='mymodel/rcnn.pth'        # 模型訓練結果
        self.embedding_pretrained = torch.tensor(np.load(self.embedding_path, allow_pickle=True)["embeddings"].astype(
            'float32')) if embedding_pre == True else None  # 預訓練詞向量
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')  # 裝置

        self.dropout = 0.5  # 隨機失活
        self.num_classes = len(json.load(open(self.class_path, encoding='utf-8')))  # 類別數
        self.n_vocab = 0  # 詞表大小，在執行時賦值
        self.epochs = 10  # epoch數
        self.batch_size = 128  # mini-batch大小
        self.maxlen = 32  # 每句話處理成的長度(短填長切)
        self.learning_rate = 1e-3  # 學習率
        self.embed_size = self.embedding_pretrained.size(1) \
            if self.embedding_pretrained is not None else 200  # 字向量維度
        self.hidden_size = 128                                          # lstm隱藏層
        self.num_layers = 1                                             # lstm層數

class Model(nn.Module):
    def __init__(self, config):
        super(Model, self).__init__()
        if config.embedding_pretrained is not None:
            self.embedding = nn.Embedding.from_pretrained(config.embedding_pretrained, freeze=False)
        else:
            vocab = pickle.load(open(config.vocab_path, 'rb'))
            config.n_vocab=len(vocab.dict)
            self.embedding = nn.Embedding(config.n_vocab, config.embed_size, padding_idx=config.n_vocab - 1)
        self.lstm = nn.LSTM(config.embed_size, config.hidden_size, config.num_layers,
                            bidirectional=True, batch_first=True, dropout=config.dropout)
        self.maxpool = nn.MaxPool1d(config.maxlen)
        self.fc = nn.Linear(config.hidden_size * 2 + config.embed_size, config.num_classes)

    def forward(self, x):
        embed = self.embedding(x)
        out, _ = self.lstm(embed)
        out = torch.cat((embed, out), 2)
        out = F.relu(out)
        out = out.permute(0, 2, 1)
        out = self.maxpool(out).squeeze()
        out = self.fc(out)
        return out

NLP文字分類學習筆記4.1：基於RCNN的文字分類

迴圈卷積神經網路RCNN 1、CNN與RNN缺點 CNN通過視窗獲取特徵，視窗尺寸不合適就會捕獲不到好特徵，視窗也不能太大，這樣就捕獲不到全域性的特徵，所以它類似於傳統的N-gram

NLP文字分類學習筆記7.1：基於ERNIE的文字分類

ERNIE 相關連結：ERNIE官方使用介紹，ERNIE專案地址基於transformer的encoder，主要思想是將文字中已有的知識融入到模型訓練中，因此採用實體mask的方式（實體指人名，地名等詞）

python學習筆記(4)-理論：資料分析工具Pandas

python學習筆記(4)-理論：資料分析工具Pandas /*! * * Twitter Bootstrap * */ /*!

[PyTorch 學習筆記] 4.1 權值初始化

本章程式碼：https://github.com/zhangxiann/PyTorch_Practice/blob/master/lesson4/grad_vanish_explod.py

NLP文字分類學習筆記5：帶attention的文字分類

本節內容有些抽象，自己也可能理解不到位，可能有些錯誤，請批判性參考 seq2seq

NLP文字分類學習筆記7：基於預訓練模型的文字分類

預訓練模型預訓練是一種遷移學習的思想，在一個大資料集上訓練大模型，之後可以利用這個訓練好的模型處理其他任務。預訓練模型的使用方法一般有：

人工智慧必備數學知識學習筆記4：零向量

程式碼實現： 1. 在Vector.py編寫程式碼 1 #向量類 2 #__values() 與 _values()區別更多體現在繼承上，如果是在類的內部使用時官方建議使用_values()發方法

[PyTorch 學習筆記] 8.1 影象分類簡述與 ResNet 原始碼分析

本章程式碼：https://github.com/zhangxiann/PyTorch_Practice/blob/master/lesson8/resnet_inference.py

GEE學習筆記4：Sentinel 2 植被指數計算

技術標籤：GEEjavascript大資料一、Sentinel 2 植被指數計算從GEE資料集匯入的資料

文字挖掘學習筆記（一）：文字分詞和詞雲展示

技術標籤：大資料python資料分析注：學習筆記基於文彤老師文字挖掘的系列課程

ABB AC900F學習筆記4：使用模擬器，匯出專案備份，趨勢記錄

前一篇學習了數值顯示和報警功能、報警記錄。這一篇繼續，學習畫面上動態資料顯示控制元件在報警產生時做背景顏色閃爍，還有做趨勢功能。一切都在前面的專案程式上繼續。

20191320-2021-2022-1-diocs 學習筆記4

第7章檔案操作——教材知識點歸納 7.1檔案操作級別 linux中檔案操作可以分為5個級別，從低等級到高等級分別為：

2021-2022-1 20191315《資訊安全系統設計與實現（上）》學習筆記4

第七章檔案操作檔案操作級別分為五個級別，按照從低到高的順序排列如下。

OpenXml SDK學習筆記（1）：Word的基本結構

能寫多少篇我就不確定了，可能就這一篇就太監了，也有可能會寫不少。 OpenXml SDK 相信很多人都不陌生，這個就是管Office一家的文件格式，Word, Excel, PowerPoint等都用到這個。並且，這個格式主要是給Word 2007以

學習筆記4：Java基礎知識02(源於學習視訊：狂神說)

資料型別和變數　　　　強型別語言：　　　　要求變數的使用要嚴格符合規定，所有變數都必須先定義後才能使用

20192427李睿智組合語言學習筆記（1-4章）

第一章基礎知識 1.1組合語言的一般概念計算機程式設計語言可分為機器語言、高階

RabbitMQ學習筆記（1）----訊息佇列

參考網址： 1. https://www.jianshu.com/p/689ce4205021 2. https://zhuanlan.zhihu.com/p/52773169 3. https://juejin.im/post/5cb025fb5188251b0351ef48#heading-2

「Go學習筆記」1.初識Go

前言由於在公司廣泛使用Docker的大環境下，突然對它的程式語言（Go）瞭解下。並且感覺現在Go語言的應用也是越來越廣泛，很多網際網路大廠都在使用，目前利用業餘時間來學習下，主流還是Java，學明白以後可能考慮轉哦

html學習筆記4—盒子

CSS處理網頁時,它認為每個元素都包含在一個不可見的盒子裡。如果把所有的元素都想象成盒子,那麼我們對網頁的佈局就相當於是擺放盒子。只需要將相應的盒子擺放到網頁中相應的位置即可完成網頁的佈局。

k8s學習筆記之二：使用kubeadm配置Ingress

Ingress 1、在master上執行 wget https://raw.githubusercontent.com/kubernetes/ingress-nginx/nginx-0.20.0/deploy/mandatory.yaml

NLP文字分類學習筆記4.1：基於RCNN的文字分類

迴圈卷積神經網路RCNN

pytorch實現基於RCNN的文字分類

相關推薦