[Kaggle] Spam/Ham Email Classification 垃圾郵件分類（BERT）

阿新 • • 發佈：2021-01-08

文章目錄

練習地址：https://www.kaggle.com/c/ds100fa19
相關博文：
[Kaggle] Spam/Ham Email Classification 垃圾郵件分類（spacy）
[Kaggle] Spam/Ham Email Classification 垃圾郵件分類（RNN/GRU/LSTM）

本文使用 huggingface 上的預訓練模型，在預訓練模型的基礎上，使用垃圾郵件資料集，進行訓練 finetune，在kaggle提交測試結果

本文程式碼參考了《自然語言處理動手學Bert文字分類》

1. 資料處理

from datetime import timedelta
import torch
import torch.nn as nn
import pandas as pd
import numpy as np
train = pd.read_csv("train.csv")
test_csv = pd.read_csv("test.csv")
train = train.fillna(" ")
test_csv = test_csv.fillna(" ")
train['all'] = train[ 
'subject'] + ' ' + train['email'] # 合併兩個特徵

# 切分出一些驗證集，分層抽樣
from sklearn.model_selection import StratifiedShuffleSplit
splt = StratifiedShuffleSplit(n_splits=1,test_size=0.2,random_state=1)
for train_idx, valid_idx in splt.split(train, train['spam']):
    train_part = train.loc[train_idx]
    valid_part = 
 train.loc[valid_idx]

y_train = train_part['spam']
y_valid = valid_part['spam']
X_train = train_part['all']
X_valid = valid_part['all']

X_test = test_csv['subject'] + ' ' + test_csv['email']
y_test = [0]*len(X_test) # 測試集沒有標籤，這麼處理方便程式碼處理
y_test = torch.LongTensor(y_test) # 轉成tensor

2. 下載預訓練模型

預訓練模型

以上模型檔案放在一個資料夾裡，如./bert_hugginggace/

提前安裝包
pip install transformers

from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("./bert_hugginggace")
# distilbert-base-uncased-finetuned-sst-2-english

pretrain_model = AutoModelForSequenceClassification.from_pretrained("./bert_hugginggace")

一些使用的引數

PAD, CLS = '[PAD]', '[CLS]'
max_seq_len = 128
bert_hidden = 768
num_classes = 2
learning_rate = 1e-5
decay = 0.01
num_epochs = 5
early_stop_time = 2000
batch_size = 32
save_path = "./best_model.ckpt" # 最好的模型
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

3. 載入資料

資料需要編碼成 bert 需要的格式
需要 token_ids, attention_mask

def load_dataset(texts, labels):
    contents = []
    for t, label in zip(texts, labels):
        token = tokenizer.tokenize(t)
        token = [CLS] + token
        # ['[CLS]', 'subject', ':', 'cell', 'phones', 'coming', 'soon', '<', 'html', '>', ...]
        seq_len = len(token)
        mask = []
        token_ids = tokenizer.convert_tokens_to_ids(token)
        # [101, 3395, 1024, 3526, 11640, 2746, 2574, 1026, 16129, 。。。]
        if len(token) < max_seq_len: # 長度不夠的，pad 補齊
            mask = [1]*len(token) + [0]*(max_seq_len-len(token))
            token_ids = token_ids + [0]*(max_seq_len-len(token))
        else: # 超長的，截斷
            mask = [1]*max_seq_len
            token_ids = token_ids[:max_seq_len]
            seq_len = max_seq_len
        y = [0]*num_classes 
        y[label] = 1 # 處理下標籤，方便後面計算 二元交叉熵損失
        contents.append((token_ids, y, seq_len, mask))
    return contents

編寫資料集迭代器，訓練的時候，每次取出 batch_size 個樣本來更新權重

class datasetIter():
    def __init__(self, datasets, batch_size, device):
        self.datasets = datasets
        self.idx = 0
        self.device = device
        self.batch_size = batch_size
        self.batches = len(datasets)//batch_size
        self.residues = False
        if len(datasets)%batch_size != 0:
            self.residues = True # 剩餘不足 batch_size 個的樣本
    def __next__(self):
        if self.residues and self.idx==self.batches:
            batch_data = self.datasets[self.idx * self.batch_size : len(self.datasets)]
            self.idx += 1
            batch_data = self._to_tensor(batch_data)
            return batch_data
        elif self.idx > self.batches:
            self.idx = 0
            raise StopIteration
        else:
            batch_data = self.datasets[self.idx * self.batch_size : (self.idx+1) * self.batch_size]
            self.idx += 1
            batch_data = self._to_tensor(batch_data)
            return batch_data
    def _to_tensor(self, datasets):
        x = torch.LongTensor([item[0] for item in datasets]).to(self.device)
        y = torch.FloatTensor([item[1] for item in datasets]).to(self.device)
        seq_len = torch.LongTensor([item[2] for item in datasets]).to(self.device)
        mask = torch.LongTensor([item[3] for item in datasets]).to(self.device)
        return (x, seq_len, mask), y
    def __iter__(self):
        return self
    def __len__(self):
        if self.residues:
            return self.batches + 1
        else:
            return self.batches

def build_iter(datasets, batch_size, device):
    iter = datasetIter(datasets,batch_size,device)
    return iter

4. 定義模型

class myModel(nn.Module):
    def __init__(self):
        super(myModel, self).__init__()
        self.pretrain_model = pretrain_model # 預訓練的bert模型
        for param in self.pretrain_model.parameters():
            param.requires_grad = True # 開啟 finetune 開關
    def forward(self, x):
        context = x[0]
        mask = x[2]
        out = self.pretrain_model(context, attention_mask=mask)
        out = torch.sigmoid(out.logits) # sigmoid到 (0,1) 方便計算交叉熵
        return out

5. 訓練

import time
import torch.nn.functional as F

from sklearn import metrics
from transformers.optimization import AdamW

輔助計時函式

def get_time_dif(starttime):
    # calculate used time
    endtime = time.time()
    return timedelta(seconds=int(round(endtime-starttime)))

訓練

def train(model, train_iter, dev_iter, test_iter):
    starttime = time.time() # 記錄開始時間
    model.train()
    optimizer = AdamW(model.parameters(),lr=learning_rate,weight_decay=decay)
    total_batch = 0
    dev_best_loss = float("inf")
    last_improve = 0
    no_improve_flag = False
    model.train()
    for epoch in range(num_epochs):
        print("Epoch {}/{}".format(epoch+1, num_epochs))
        for i, (X, y) in enumerate(train_iter):
            outputs = model(X) # batch_size * num_classes
            model.zero_grad() # 清理梯度增量
            loss = F.binary_cross_entropy(outputs, y)
            loss.backward()
            optimizer.step()
            if total_batch%100 == 0: # 列印訓練資訊
                truelabels = torch.max(y.data, 1)[1].cpu()
                pred = torch.max(outputs, 1)[1].cpu()
                train_acc = metrics.accuracy_score(truelabels, pred)
                # 呼叫 評估函式 檢查驗證集上的效果
                dev_acc, dev_loss = evaluate(model, dev_iter) 
                # 檢查驗證集上的效果， 保留效果最好的
                if dev_loss < dev_best_loss:
                    dev_best_loss = dev_loss
                    torch.save(model.state_dict(), save_path)
                    improve = '*'
                    last_improve = total_batch
                else:
                    improve = ' '
                time_dif = get_time_dif(starttime)
                # 列印訓練資訊，id : >右對齊，n 寬度，.3 小數位數
                msg = 'Iter:{0:>6}, Train Loss:{1:>5.2}, Train Acc:{2:>6.2}, Val Loss:{3:>5.2}, val Acc :{4:>6.2%}, Time:{5} {6}'
                print(msg.format(total_batch, loss.item(),train_acc, dev_loss, dev_acc, time_dif, improve))
                model.train()
            total_batch += 1
            # 如果長時間沒有改進，認為收斂，停止訓練
            if total_batch - last_improve > early_stop_time:
                print("no improve after {} times, stop!".format(early_stop_time))
                no_improve_flag = True
                break
        if no_improve_flag:
            break
    # 呼叫 測試函式，生成預測結果
    test(model, test_iter)

評估函式

def evaluate(model, dev_iter):
    model.eval() # 評估模式
    loss_total = 0
    pred_all = np.array([], dtype=int)
    labels_all = np.array([], dtype=int)
    with torch.no_grad(): # 不記錄圖的操作，不更新梯度
        for X, y in dev_iter:
            outputs = model(X)
            loss = F.binary_cross_entropy(outputs, y)
            loss_total += loss
            truelabels = torch.max(y.data, 1)[1].cpu()
            pred = torch.max(outputs, 1)[1].cpu().numpy()
            labels_all = np.append(labels_all, truelabels)
            pred_all = np.append(pred_all, pred)
    acc = metrics.accuracy_score(labels_all, pred_all)
    return acc, loss_total/len(dev_iter)

測試函式

def test(model, test_iter):
    model.load_state_dict(torch.load(save_path)) # 載入最佳模型
    model.eval() # 評估模式
    pred_all = np.array([], dtype=int)
    with torch.no_grad():
        for X, y in test_iter:
            outputs = model(X)
            pred = torch.max(outputs, 1)[1].cpu().numpy()
            pred_all = np.append(pred_all, pred)
    # 寫入提交檔案
    id = test_csv['id']
    output = pd.DataFrame({'id':id, 'Class': pred_all})
    output.to_csv("submission_bert.csv",  index=False)

執行主程式

# 確定隨機數
np.random.seed(520)
torch.manual_seed(520)
torch.cuda.manual_seed_all(520)
torch.backends.cudnn.deterministic = True

# 載入資料
train_data = load_dataset(X_train, y_train)
valid_data = load_dataset(X_valid, y_valid)
test_data = load_dataset(X_test, y_test)

# 資料迭代器
train_iter = build_iter(train_data, batch_size, device)
valid_iter = build_iter(valid_data, batch_size, device)
test_iter = build_iter(test_data, batch_size, device)

# 模型
model = myModel().to(device)

# 訓練、評估、測試
train(model, train_iter, valid_iter, test_iter)

6. 提交測試結果

Private Score：0.98714
Public Score：0.99000

沒怎麼調參，準確率接近99%，效果還是很不錯的！

歡迎大家提出意見和指正！多謝！

[Kaggle] Spam/Ham Email Classification 垃圾郵件分類（BERT）

技術標籤：自然語言處理文章目錄 1. 資料處理2. 下載預訓練模型3. 載入資料4. 定義模型5. 訓練6. 提交測試結果

sklearn進行垃圾郵件分類

技術標籤：Machine Learning垃圾郵件分類sklearn 1. 資料讀取 # 1. 資料集的讀取 import os

Spark實現簡單的垃圾郵件分類--JAVA原始碼

技術標籤：spark機器學習hadoopjava大資料 Spark實現簡單的垃圾郵件分類–JAVA原始碼

Bert模型實現垃圾郵件分類

近日，對近些年在NLP領域很火的BERT模型進行了學習，並進行實踐。今天在這裡做一下筆記。

樸素貝葉斯--垃圾郵件分類

樸素貝葉斯--垃圾郵件分類一.垃圾郵件資料集 smsspamcollection資料集本文資料集來源github：https://github.com/w1449550206/Spam-classification.git

第三天學習進度--文字情感分類（二）

昨天在情感處理的學習中瞭解到了關於word2vec的用法，今天我們繼續康康doc2vec究竟在情感分類的過程中是如何使用的。

剖析垃圾回收機制（上）

前言：關於 JVM 垃圾回收機制面試中主要涉及這三個考題： JVM 中有哪些垃圾回收演算法？它們各自有什麼優劣？

機器學習-文字分類（1）之獨熱編碼、詞袋模型、N-gram、TF-IDF

1、one-hot 一般是針對於標籤而言，比如現在有貓：0，狗：1，人：2，船：3，車：4這五類，那麼就有：

機器學習-文字分類（2）-新聞文字分類

參考：https://mp.weixin.qq.com/s/6vkz18Xw4USZ3fldd_wf5g 1、資料集下載地址 https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/train_set.csv.zip

Python中的垃圾回收機制（轉）

原文：https://foofish.net/python-gc.html GC作為現代程式語言的自動記憶體管理機制，專注於兩件事：1. 找到記憶體中無用的垃圾資源 2. 清除這些垃圾並把記憶體讓出來給其他物件使用。GC徹底把程式設計師從資源管理

機器學習筆記—模式分類（四）引數判別估計法3（貝葉斯引數估計）

前序文章：機器學習筆記—模式分類（一）緒論&貝葉斯決策論機器學習筆記—模式分類（二）引數判別估計法（最大似然估計和貝葉斯引數估計）1

【Java GC系列】垃圾收集簡介（1）

說明: 在本文中,Garbage Collection翻譯為 “垃圾收集”,garbage collector翻譯為 “垃圾收集器”;

Flask_Flask-Mail郵件擴充套件（十三）

在開發過程中，很多應用程式都需要通過郵件提醒使用者，Flask的擴充套件包Flask-Mail通過包裝了Python內建的smtplib包，可以用在Flask程式中傳送郵件。

機器學習sklearn（三十二）：演算法例項（一）分類（一）分類決策樹（一）簡介

1 概述 1.1 決策樹是如何工作的　　決策樹（Decision Tree）是一種非引數的有監督學習方法，它能夠從一系列有特徵和標籤的資料中總結出決策規則，並用樹狀圖的結構來呈現這些規則，以解決分類和迴歸問題。決策樹演

機器學習sklearn（三十七）：演算法例項（六）分類（四）分類決策樹（四）Bonus Chapter I 例項：分類樹在合成數集上的表現

我們在紅酒資料集上畫出了一棵樹，並且展示了多個引數會對樹形成這樣的影響，接下來，我們將在不同結構的資料集上測試一下決策樹的效果，讓大家更好地理解決策樹。

機器學習sklearn（三十九）：演算法例項（八）分類（四）隨機森林分類器 RandomForestRegressor

class sklearn.ensemble.RandomForestRegressor(n_estimators=’warn’, criterion=’mse’, max_depth=None,min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’,max_l

機器學習sklearn（57）：演算法例項（十四）分類（七）邏輯迴歸（二）linear_model.LogisticRegression(一) 重要引數

class sklearn.linear_model.LogisticRegression (penalty=’l2’, dual=False, tol=0.0001, C=1.0,fifit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver=’warn’, max_iter=

機器學習sklearn（58）：演算法例項（十五）分類（八）邏輯迴歸（三）linear_model.LogisticRegression(二) 重要引數

3 梯度下降：重要引數max_iter 3.1 梯度下降求解邏輯迴歸 3.2 梯度下降的概念與解惑

機器學習sklearn（83）：演算法例項（40）分類（19）樸素貝葉斯（二）不同分佈下的貝葉斯（一）高斯樸素貝葉斯GaussianNB

1 認識高斯樸素貝葉斯 1. 展示我所使用的裝置以及各個庫的版本 %%cmd pip install watermark

機器學習sklearn（85）：演算法例項（42）分類（21）樸素貝葉斯（四）不同分佈下的貝葉斯（三）多項式樸素貝葉斯以及其變化

1 多項式樸素貝葉斯MultinomialNB 1. 匯入需要的模組和庫 from sklearn.preprocessing import MinMaxScaler

[Kaggle] Spam/Ham Email Classification 垃圾郵件分類（BERT）

文章目錄

1. 資料處理

2. 下載預訓練模型

3. 載入資料

4. 定義模型

5. 訓練

6. 提交測試結果

相關推薦