NLP文字分類學習筆記7.1：基於ERNIE的文字分類

阿新 • • 發佈：2022-04-08

ERNIE

相關連結：ERNIE官方使用介紹，ERNIE專案地址
基於transformer的encoder，主要思想是將文字中已有的知識融入到模型訓練中，因此採用實體mask的方式（實體指人名，地名等詞）

預訓練

模型結構圖如下所示

文字中已有的知識主要有人名，地名等實體，這些詞本來就蘊含一些資訊，而採用bert那種mask方式，如通過哈和濱預測中間的爾，顯然多此一舉，且沒有關注哈爾濱這個詞本來含有的資訊。

ERNIE使用多個T-encoder，還是像bert一樣輸入token embedding，訓練得到文字序列中的資訊。其中T-encoder為transformer的encoder
再使用多個K-encoder，將文字中的實體embedding輸入與T-encoder輸入“拼接”在一起，最後輸出。

實體embedding採用知識嵌入模型TransE得到（TransE這組要思想是構造實體向量和關係向量，不斷使兩個實體向量相加接近關係向量），然後實體embedding通過多頭注意力機制提取資訊
T-encoder的輸出w再經過多頭注意力機制後與實體提取的資訊e“拼接”，經過information fusion層，最後得到輸出
“拼接”方式採用下圖中公式一，w經過全連線層，e經過全連線層，兩者相加（實體要拼接到最開始的那個token上，如實體哈爾濱要拼到哈上），通過GELU啟用函式，得到h
在information fusion層，再用h，分別通過全連線層得到新的w和e

如果這段文字沒有實體資訊，就採用下述方法

預訓練的任務是用5%時間，隨機替換實體，讓模型預測正確的實體，15%的時間，隨機mask實體知識與token拼接的資訊，用模型去預測這個資訊，剩下的時間不變

微調

以文字分類為例：與bert時相同，先對輸入的句子按字進行切分，最後將[cls]對應的輸出用作分類

pytorch實現基於ERNIE的文字分類

使用Hugging Face的預訓練模型nghuyong/ernie-1.0 ，在10分類任務上準確率為76.98%，更多程式碼詳情見NLP文字分類學習筆記0
結構程式碼 myERNIE.py

import torch
import torch.nn as nn
from transformers import AutoTokenizer, AutoModel

class Config(object):

    def __init__(self):
        self.pre_bert_path="nghuyong/ernie-1.0"
        self.train_path = 'data/dataset_train.csv'  # 訓練集
        self.dev_path = 'data/dataset_valid.csv'  # 驗證集
        self.test_path = 'data/test.csv'  # 測試集
        self.class_path = 'data/class.json'  # 類別名單
        self.save_path ='mymodel/ernie.pth'        # 模型訓練結果
        self.num_classes=10
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')   # 裝置

        self.epochs = 10  # epoch數
        self.batch_size = 128  # mini-batch大小
        self.maxlen = 32  # 每句話處理成的長度(短填長切)
        self.learning_rate = 5e-4                                       # 學習率
        self.hidden_size=768
        self.tokenizer = AutoTokenizer.from_pretrained(self.pre_bert_path)

class Model(nn.Module):
    def __init__(self, config):
        super(Model, self).__init__()
        self.ernie=AutoModel.from_pretrained(config.pre_bert_path)
        #設定不更新預訓練模型的引數
        for param in self.ernie.parameters():
            param.requires_grad = False
        self.fc = nn.Linear(config.hidden_size, config.num_classes)
    def forward(self, input):
        out=self.ernie(input_ids =input['input_ids'],attention_mask=input['attention_mask'],token_type_ids=input['token_type_ids'])
        #只取最後一層CLS對應的輸出
        out = self.fc(out.pooler_output)
        return out

執行程式碼run.py

import json
from mymodel import myBert,myAlbertl,myERNIE
import mydataset
import torch
import pandas as pd
from torch import nn,optim
from torch.utils.data import DataLoader

config=myERNIE.Config()

label_dict=json.load(open(config.class_path,'r',encoding='utf-8'))
# 載入訓練，驗證，測試資料集
train_df = pd.read_csv(config.train_path)
#這裡將標籤轉化為數字
train_ds=mydataset.GetLoader(train_df['review'],[label_dict[i] for i in train_df['cat']])
train_dl=DataLoader(train_ds,batch_size=config.batch_size,shuffle=True)
valid_df = pd.read_csv(config.dev_path)
valid_ds=mydataset.GetLoader(valid_df['review'],[label_dict[i] for i in valid_df['cat']])
valid_dl=DataLoader(valid_ds,batch_size=config.batch_size,shuffle=True)
test_df = pd.read_csv(config.test_path)
test_ds=mydataset.GetLoader(test_df['review'],[label_dict[i] for i in test_df['cat']])
test_dl=DataLoader(test_ds,batch_size=config.batch_size,shuffle=True)

#計算準確率
def accuracys(pre,label):
    pre=torch.max(pre.data,1)[1]
    accuracy=pre.eq(label.data.view_as(pre)).sum()
    return accuracy,len(label)

#匯入網路結構
model=myERNIE.Model(config).to(config.device)

#訓練
criterion=nn.CrossEntropyLoss()
optimizer=optim.Adam(model.parameters(),lr=config.learning_rate)
best_loss=float('inf')
for epoch in range(config.epochs):
    train_acc = []
    for batch_idx,(data,target)in enumerate(train_dl):
        inputs = config.tokenizer(list(data),truncation=True, return_tensors="pt",padding=True,max_length=config.maxlen)
        model.train()
        out = model(inputs)
        loss=criterion(out,target)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        train_acc.append(accuracys(out,target))
        train_r = (sum(tup[0] for tup in train_acc), sum(tup[1] for tup in train_acc))
        print('當前epoch:{}\t[{}/{}]{:.0f}%\t損失：{:.6f}\t訓練集準確率：{:.2f}%\t'.format(
            epoch, batch_idx, len(train_dl), 100. * batch_idx / len(train_dl), loss.data,
                   100. * train_r[0].numpy() / train_r[1]
        ))
        #每100批次進行一次驗證
        if batch_idx%100==0 and batch_idx!=0:
            model.eval()
            val_acc=[]
            loss_total=0
            with torch.no_grad():
                for (data,target) in valid_dl:
                    inputs = config.tokenizer(list(data), truncation=True, return_tensors="pt", padding=True,
                                              max_length=config.maxlen)
                    out = model(inputs)
                    loss_total = criterion(out, target).data+loss_total
                    val_acc.append(accuracys(out,target))
            val_r = (sum(tup[0] for tup in val_acc), sum(tup[1] for tup in val_acc))
            print('損失：{:.6f}\t驗證集準確率：{:.2f}%\t'.format(loss_total/len(valid_dl),100. * val_r[0].numpy() / val_r[1]))
            #如果驗證損失低於最好損失，則儲存模型
            if loss_total < best_loss:
                best_loss = loss_total
                torch.save(model.state_dict(), config.save_path)

#測試
model.load_state_dict(torch.load(config.save_path))
model.eval()
test_acc=[]
with torch.no_grad():
    for (data, target) in test_dl:
        inputs = config.tokenizer(list(data),truncation=True, return_tensors="pt",padding=True,max_length=config.maxlen)
        out = model(inputs)
        test_acc.append(accuracys(out, target))
test_r = (sum(tup[0] for tup in test_acc), sum(tup[1] for tup in test_acc))

print('測試集準確率：{:.2f}%\t'.format(100. * test_r[0].numpy() / test_r[1]))

NLP文字分類學習筆記7.1：基於ERNIE的文字分類

ERNIE 相關連結：ERNIE官方使用介紹，ERNIE專案地址基於transformer的encoder，主要思想是將文字中已有的知識融入到模型訓練中，因此採用實體mask的方式（實體指人名，地名等詞）

NLP文字分類學習筆記4.1：基於RCNN的文字分類

迴圈卷積神經網路RCNN 1、CNN與RNN缺點 CNN通過視窗獲取特徵，視窗尺寸不合適就會捕獲不到好特徵，視窗也不能太大，這樣就捕獲不到全域性的特徵，所以它類似於傳統的N-gram

NLP文字分類學習筆記7：基於預訓練模型的文字分類

預訓練模型預訓練是一種遷移學習的思想，在一個大資料集上訓練大模型，之後可以利用這個訓練好的模型處理其他任務。預訓練模型的使用方法一般有：

NLP文字分類學習筆記5：帶attention的文字分類

本節內容有些抽象，自己也可能理解不到位，可能有些錯誤，請批判性參考 seq2seq

[PyTorch 學習筆記] 8.1 影象分類簡述與 ResNet 原始碼分析

本章程式碼：https://github.com/zhangxiann/PyTorch_Practice/blob/master/lesson8/resnet_inference.py

JS高程學習筆記（1-7章）

1.1 一個完整的js實現包括啥？ ECMAscript DOM（文件物件模型） BOM（瀏覽器物件模型） 1.2 ECMAScript的宿主環境有？宿主環境：提供基本的ECMAScript實現，也提供語言的擴充套件，便於語言和環境之間對接

Python學習筆記7：錯誤和異常

我們在程式編寫和執行過程中，總會遇到各種各樣的錯誤。 1.有的錯誤是編寫程式時語法錯誤。比如少了：冒號，縮排不合理等等。

文字挖掘學習筆記（一）：文字分詞和詞雲展示

技術標籤：大資料python資料分析注：學習筆記基於文彤老師文字挖掘的系列課程

ABB AC900F學習筆記7：工藝圖繪製2-有引數的巨集的使用

前面一篇練習，插入工藝圖的是不帶引數的管道。實際上很多ABB自作的工藝符號是由預設引數的。這一篇使用換熱器符號做一個練習。首先在工藝圖插入一個換熱器，雙擊符號可以看到引數還是很多的。

OpenXml SDK學習筆記（1）：Word的基本結構

能寫多少篇我就不確定了，可能就這一篇就太監了，也有可能會寫不少。 OpenXml SDK 相信很多人都不陌生，這個就是管Office一家的文件格式，Word, Excel, PowerPoint等都用到這個。並且，這個格式主要是給Word 2007以

RabbitMQ學習筆記（1）----訊息佇列

參考網址： 1. https://www.jianshu.com/p/689ce4205021 2. https://zhuanlan.zhihu.com/p/52773169 3. https://juejin.im/post/5cb025fb5188251b0351ef48#heading-2

「Go學習筆記」1.初識Go

前言由於在公司廣泛使用Docker的大環境下，突然對它的程式語言（Go）瞭解下。並且感覺現在Go語言的應用也是越來越廣泛，很多網際網路大廠都在使用，目前利用業餘時間來學習下，主流還是Java，學明白以後可能考慮轉哦

python學習筆記(4)-理論：資料分析工具Pandas

python學習筆記(4)-理論：資料分析工具Pandas /*! * * Twitter Bootstrap * */ /*!

k8s學習筆記之二：使用kubeadm配置Ingress

Ingress 1、在master上執行 wget https://raw.githubusercontent.com/kubernetes/ingress-nginx/nginx-0.20.0/deploy/mandatory.yaml

k8s學習筆記之二：Pod

一、deployment部署pod 備註：// 部署pod到指定節點在啟動Pod的yaml檔案中與containers同級別的位置新增如下兩行即可

k8s學習筆記之五：volume，PV ,PVC

預設情況下容器的資料都是非持久化的，在容器消亡以後資料也跟著丟失，所以 Docker 提供了 Volume 機制以便將資料持久化儲存。類似的， Kubernetes 提供了更強大的 Volume 機制和豐富的外掛，解決了容器資料持久

Django學習筆記（1）Django安裝

1.安裝django 　　本篇文章只針對於pycharm專業版環境安裝Django，社群版需要手動搭建環境

Asp.Net Core學習筆記7——依賴注入

Asp.Net Core學習筆記7——依賴注入 1.什麼是依賴注入　　我們想要弄明白依賴注入是什麼，首先得了解什麼是依賴？簡而言之，依賴是指一個類使用了另一個類，這兩個類之間得關係是臨時、偶然的，這種關係聯

微信小程式開發學習筆記(7.15)

scroll-view滾動檢視的使用在微信開發者工具中封裝好了這個功能。首先要把幾個view標籤放入一個盒子，成為行元素。不壓縮每一個view使得view溢位介面，這是可以滾動檢視。

mysql8學習筆記7--事務使用的控制

預設情況下，MySQL在啟用自動提交模式的情況下執行。這意味著，當不在事務內時，每個語句都是原子的，就像它被START TRANSACTION和包圍一樣COMMIT。不能ROLLBACK用來撤消效果。但是，如果在語句執行期間發生錯誤，則

NLP文字分類學習筆記7.1：基於ERNIE的文字分類

ERNIE

預訓練

微調

pytorch實現基於ERNIE的文字分類

相關推薦