文字分類（五）：transformers庫BERT實戰，基於BertForSequenceClassification

阿新 • • 發佈：2021-08-11

一、程式碼一

import pandas as pd
import codecs
from config.root_path import root
import os
from utils.data_process import get_label,text_preprocess
import json
from transformers import BertTokenizer
from torch.utils.data import Dataset, DataLoader, TensorDataset
import torch
import re
import numpy as np
 
from transformers import BertForSequenceClassification, AdamW, get_linear_schedule_with_warmup
import torch.nn as nn


class NewsDataset(Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    # 讀取單個樣本
    def __getitem__(self, idx):
        item  
= {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(int(self.labels[idx]))
        return item

    def __len__(self):
        return len(self.labels)

# 精度計算
def flat_accuracy(preds, labels):
    pred_flat = np.argmax(preds, axis=1).flatten()
    labels_flat  
= labels.flatten()
    return np.sum(pred_flat == labels_flat) / len(labels_flat)

class EarlyStopper(object):

    def __init__(self, num_trials, save_path):
        self.num_trials = num_trials
        self.trial_counter = 0
        self.best_accuracy = 0
        self.save_path = save_path

    def is_continuable(self, model, accuracy):
        if accuracy > self.best_accuracy:
            self.best_accuracy = accuracy
            self.trial_counter = 0
            print("儲存模型，指標：{}", accuracy)
            torch.save(model.state_dict(), self.save_path)
            return True
        elif self.trial_counter + 1 < self.num_trials:
            self.trial_counter += 1
            return True
        else:
            return False

class run_bert():

    def __init__(self):

        data_path = os.path.join(root, "data")
        self.train_path = os.path.join(data_path, "train.txt")
        self.val_path = os.path.join(data_path, "val.txt")
        self.test_path = os.path.join(data_path, "test.txt")
        code_label_path = os.path.join(root, "code_to_label.json")
        if not os.path.exists(code_label_path):
            get_label()
        with open(code_label_path, "r", encoding="utf8") as f:
            self.code_label = json.load(f)
        self.model_name = os.path.join(root, "chkpt", "bert-base-chinese")
        self.num_label = len(self.code_label)
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.batch_size = 16

    def read_file(self, path):
        sentences = list()
        labels = list()
        with open(path, "r", encoding="utf8") as f:
            for fr in f.readlines():
                line = fr.strip().split("\t")
                sentences.append(text_preprocess(line[0]))
                labels.append(self.code_label[line[1]][2])
        return sentences, labels

    def get_datas(self):
        train_s, train_l = self.read_file(self.train_path)
        val_s, val_l = self.read_file(self.val_path)
        test_s, test_l = self.read_file(self.test_path)
        return train_s, train_l, val_s, val_l, test_s, test_l

    def s_encoding(self, s):
        tokenizer = BertTokenizer.from_pretrained(self.model_name)
        encoding = tokenizer(s, truncation=True, padding=True, max_length=40)
        return encoding

    # 訓練函式
    def train(self, model, train_loader, optim, device, scheduler, epoch, loss_fn):
        model.train()
        total_train_loss = 0
        iter_num = 0
        total_iter = len(train_loader)
        for batch in train_loader:
            # 正向傳播
            optim.zero_grad()
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            labels = batch['labels'].to(device)
            outputs = model(input_ids, attention_mask=attention_mask, labels=labels)
            logits = outputs[1]
            loss = loss_fn(logits, labels)
            total_train_loss += loss.item()


            # 反向梯度資訊
            loss.backward()
            torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
            # 引數更新
            optim.step()
            scheduler.step()

            iter_num += 1
            if (iter_num % 10 == 0):
                print("epoth: %d, iter_num: %d, loss: %.4f, %.2f%%" % (
                epoch, iter_num, loss.item(), iter_num / total_iter * 100))

        print("Epoch: %d, Average training loss: %.4f" % (epoch, total_train_loss / len(train_loader)))

    def validation(self, model, val_dataloader, device):
        model.eval()
        total_eval_accuracy = 0
        total_eval_loss = 0
        for batch in val_dataloader:
            with torch.no_grad():
                # 正常傳播
                input_ids = batch['input_ids'].to(device)
                attention_mask = batch['attention_mask'].to(device)
                labels = batch['labels'].to(device)
                outputs = model(input_ids, attention_mask=attention_mask, labels=labels)

            loss = outputs[0]
            logits = outputs[1]
            total_eval_loss += loss.item()
            logits = logits.detach().cpu().numpy()
            label_ids = labels.to('cpu').numpy()
            total_eval_accuracy += flat_accuracy(logits, label_ids)

        avg_val_accuracy = total_eval_accuracy / len(val_dataloader)
        print("Accuracy: %.4f" % (avg_val_accuracy))
        print("Average testing loss: %.4f" % (total_eval_loss / len(val_dataloader)))
        print("-------------------------------")
        return avg_val_accuracy

    def main(self):
        train_s, train_l, val_s, val_l, test_s, test_l  = self.get_datas()
        train_encoding = self.s_encoding(train_s)
        val_encoding = self.s_encoding(val_s)

        train_dataset = NewsDataset(train_encoding, train_l)
        val_dataset = NewsDataset(val_encoding, val_l)

        model = BertForSequenceClassification.from_pretrained(
                self.model_name, num_labels=self.num_label)
        model.to(self.device)
        train_loader = DataLoader(train_dataset, batch_size=self.batch_size, shuffle=True)
        val_dataloader = DataLoader(val_dataset, batch_size=self.batch_size, shuffle=True)
        optim = AdamW(model.parameters(), lr=2e-5)
        loss_fn = nn.CrossEntropyLoss()
        total_steps = len(train_loader) * 1
        scheduler = get_linear_schedule_with_warmup(optim,
                                                    num_warmup_steps=0,  # Default value in run_glue.py
                                                    num_training_steps=total_steps)
        early_stopper = EarlyStopper(num_trials=5, save_path=f'{os.path.join(root, "chkpt")}/{"bert_classification"}.pt')
        for epoch in range(100):
            print("------------Epoch: %d ----------------" % epoch)
            self.train(model, train_loader, optim, self.device, scheduler, epoch, loss_fn)
            acc = self.validation(model, val_dataloader, self.device)
            if not early_stopper.is_continuable(model, acc):
                print(f'validation: best auc: {early_stopper.best_accuracy}')
                break

        test_encoding = self.s_encoding(test_s)
        test_dataset = NewsDataset(test_encoding, test_l)
        test_loader = DataLoader(test_dataset, batch_size=self.batch_size, shuffle=True)
        acc = self.validation(model, test_loader, self.device)
        print(f'test acc: {acc}')

if __name__ == '__main__':
    run_bert().main()

二、分類效果

模型準確率82%，效果不好。

文字分類（五）：transformers庫BERT實戰，基於BertForSequenceClassification

一、程式碼一 import pandas as pd import codecs from config.root_path import root import os from utils.data_process import get_label,text_preprocess

文字分類（一）：使用Pytorch進行文字分類——BiLSTM+Attention

一、架構圖二、程式碼 class TextBILSTM(nn.Module): def __init__(self, config:TRNNConfig, char_size = 5000,

文字分類（二）：使用Pytorch進行文字分類——TextCNN

一、架構圖二、程式碼實現 class TextCNN(nn.Module): def __init__(self, config:TCNNConfig, char_size = 5000, pinyin_size=5000):

文字分類（三）：使用Pytorch進行文字分類——Transformer

一、前言文字分類不是生成式的任務，因此只使用Transformer的編碼部分（Encoder）進行特徵提取。如果不熟悉Transformer模型的原理請移步。

文字分類（六）：不平衡文字分類，Focal Loss理論及PyTorch實現

轉載於：https://zhuanlan.zhihu.com/p/361152151 轉載於：https://www.jianshu.com/p/30043bcc90b6 摘要：本篇主要從理論到實踐解決文字分類中的樣本不均衡問題。首先講了下什麼是樣本不均衡現象以及可能帶來的問題

python人臉識別專案之學習筆記（五）：TensorFlow實現卷積，激勵，池化 +全連線

需要學習的知識點如何使用卷積，激勵，池化如何使用全連線最近看了一位大佬寫的對卷積的理解寫得非常詳細，可以參考這篇部落格 https://blog.csdn.net/v_JULY_v/article/details/51812459如何用程式碼實現卷

Bert文字分類實踐（二）：魔改Bert，融合TextCNN的新思路

寫在前面文字分類是nlp中一個非常重要的任務，也是非常適合入坑nlp的第一個完整專案。雖然文字分類看似簡單，但裡面的門道好多好多，博主水平有限，只能將平時用到的方法和trick在此做個記錄和分享，希望各位看

[.Net]使用Soa庫+Abp搭建微服務專案框架（五）：服務發現和健康監測

上篇文章說過，服務發現和健康監測是面向服務體系架構重要的模組，Soa庫可以配置使用Consul作為服務發現服務，或者輪詢已配置的服務列表作為本機服務發現。

從零寫一個編譯器（五）：語法分析之自動機的缺陷和改進

專案的完整程式碼在 C2j-Compiler 前言在上一篇，已經成功的構建了有限狀態自動機，但是這個自動機還存在兩個問題：

Spring Boot實戰（五）：Spring Boot配置定時任務

在專案開發過程中，經常需要定時任務來做一些內容，比如定時進行資料統計（閱讀量統計），資料更新（生成每天的歌單推薦）等。

Java SE基礎鞏固（五）：列舉

列舉在很多程式語言中都有，例如C/C++，但Java直到JDK1.5才增加這個特性，至於為什麼那麼晚，我就不得而知了。那什麼是列舉呢？在維基百科上有如下定義：在數學和電腦科學理論中，一個集的列舉是列出某些有窮序列集的

ASP.NET WebApi專案框架搭建（五）：異常處理

一、前言目的和原則　　1、程式任何地方都不能catch掉異常，如果要catch也請重新throw異常或是將異常記錄到日誌裡。避免異常被“吃掉“，導致無法排查程式的bug。

Zookeeper基礎教程（五）：C#實現Zookeeper分散式鎖

　　分散式鎖　　　網際網路初期，我們系統一般都是單點部署，也就是在一臺伺服器完成系統的部署，後期隨著使用者量的增加，伺服器的壓力也越來越大，響應速度越來越慢，甚至出現伺服器崩潰的情況。

MYSQL 之 JDBC（五）：增刪改查（三）PreparedStatement

是Statement的子介面，可以傳入帶佔位符的sql語句，並且提供了補充佔位符變數的方法。

Maven 專題（五）：Maven核心概念詳解（一）

**Maven 的核心程式中僅僅定義了抽象的生命週期，而具體的操作則是由 Maven 的外掛來完成的。**可是 Maven 的外掛並不包含在 Maven 的核心程式中，在首次使用時需要聯網下載。下載得到的外掛會被儲存到本地倉庫中。

SpringBoot + Vue + ElementUI 實現後臺管理系統模板 -- 後端篇（五）：資料表設計、使用 jwt、redis、sms 工具類完善註冊登入邏輯

（1）相關博文地址： SpringBoot + Vue + ElementUI 實現後臺管理系統模板 -- 前端篇（一）：搭建基本環境：https://www.cnblogs.com/l-y-h/p/12930895.html

設計模式學習筆記（五）：工廠方法模式

1 前言儘管簡單工廠模式實現了物件的建立和使用分離，但是仍然存在以下兩個問題：

Tkinter（五）：Scale

效果：拖動滑動條，數值會顯示在頂部的Label上面 import tkinter as tk # 定義視窗 window = tk.Tk()

ROS中階筆記（五）：機器人感知—機器視覺

ROS中階筆記（五）：機器人感知—機器視覺目錄1 ROS中的影象資料1.1 二維影象1.1.1 安裝安裝usb_cam1.1.2 顯示影象資料1.2 三維影象(kinect)2 攝像頭標定2.1 攝像頭標定準備工作2.2 攝像頭標定流程2.2.1 普通攝像頭

Unity 多平臺原生SDK接入速覽（五）：微博

ZeroyiQ：Unity 多平臺原生SDK接入速覽（一）：微信開放平臺 ZeroyiQ：Unity 多平臺原生SDK接入速覽（二）：QQ互聯

文字分類（五）：transformers庫BERT實戰，基於BertForSequenceClassification

一、程式碼一

二、分類效果

相關推薦