GRU訓練情感分類器（程式碼）

阿新 • • 發佈：2022-05-07

import re
import time
import os
import pandas as pd
import torch
from torch import nn
from torch.utils.data import DataLoader, Dataset, random_split
from torchtext.vocab import build_vocab_from_iterator


class Imdb_Datasets(Dataset):
    """
    when u want to init this instance,
    the file path should be father/train(test)/datafile
    """

    def __init__(self, data_path: str, train=True):
        super(Imdb_Datasets, self).__init__()
        self._train_data_path = os.path.join(data_path, "train")
        self._test_data_path = os.path.join(data_path, "test")
        self._temp_data_path = self._train_data_path if train else self._test_data_path

        self.temp_data_path = [os.path.join(self._temp_data_path, 'pos'), os.path.join(self._temp_data_path, 'neg')]
        self.total_data_path_list = []
        for path in self.temp_data_path:
            self.total_data_path_list.extend([os.path.join(path, j) for j in os.listdir(path) if j.endswith('.txt')])

    def __len__(self):
        return self.total_data_path_list.__len__()

    def __getitem__(self, index):
        path = self.total_data_path_list[index]
        label_str = path.split('\\')[-2]
        label = [1, 0] if label_str == 'neg' else [0, 1]
        content = pd.read_csv(path, sep='\t')

        return content.columns[0], label


# todo: define a NLP network to address sentiment classify problem
class Imdb_Sentiment_classify(nn.Module):
    def __init__(self, vocab_size, embed_dim):
        super(Imdb_Sentiment_classify, self).__init__()
        self.hidden_size = 64
        self.dropout = 0.5
        self.num_layer = 2

        self.embedding = nn.EmbeddingBag(vocab_size, embed_dim, sparse=True)
        self.gru = nn.GRU(input_size=embed_dim,
                          hidden_size=self.hidden_size,
                          num_layers=self.num_layer,
                          dropout=self.dropout)
        self.fc = nn.Sequential(nn.Linear(self.hidden_size, 128),
                                nn.ReLU(),
                                nn.Linear(128, 2),
                                nn.Softmax(dim=1)
                                )
        self.init_weight()

    def init_weight(self):
        initrange = 0.5
        self.embedding.weight.data.uniform_(-initrange, initrange)

    def forward(self, text, offsets):
        """
        注意：在embedding後，資料的維度是[batch_size, embed_size]，
        需要變成[batch_size, sequence_length, input_size]，以此來增加以滿足訓練的要求
        參考： https://pytorch.org/docs/stable/generated/torch.nn.GRU.html#torch.nn.GRU，
              https://pytorch.org/docs/stable/generated/torch.unsqueeze.html
        forward 這樣寫在Debug時，可以更加直觀的看到每一層的輸出
        """
        x = self.embedding(text, offsets)
        x = torch.unsqueeze(x, dim=1)
        out_, H_n = self.gru(x, None)
        output_ = self.fc(out_)
        output = torch.squeeze(output_, dim=1)
        return output


def tokenize(text):
    fileters = ['!', '"', '#', '$', '%', '&', '\(', '\)', '\*', '\+', ',', '-', '\.', '/', ':', ';', '<', '=', '>',
                '\?', '@', '\[', '\\', '\]', '^', '_', '`', '\{', '\|', '\}', '~', '\t', '\n', '\x97', '\x96', '”',
                '“', ]
    text = re.sub("<.*?>", " ", text)
    text = re.sub("|".join(fileters), " ", text)
    return [i.strip().lower() for i in text.split()]


def yield_tokens(data_iter):
    """
    To processing texts2tokens
    """
    for text, label in data_iter:
        yield tokenize(text)


def collate_batch(batch):
    """
    This will be use by DataLoader,
    which used to processing a batch size of datas
    :rtype: object
    """
    label_list, text_list, offsets = [], [], [0]
    for (_text, _label) in batch:
        label_list.append(label_pipeline(_label))
        processed_text = torch.tensor(text_pipeline(_text), dtype=torch.int64)
        text_list.append(processed_text)
        offsets.append(processed_text.size(0))
    label_list = torch.tensor(label_list, dtype=torch.int64)
    offsets = torch.tensor(offsets[:-1]).cumsum(dim=0)
    text_list = torch.cat(text_list)
    return label_list.to(device), text_list.to(device), offsets.to(device)


def train(dataloader, epo):
    model.train()
    total_acc, total_count = 0, 0
    log_interval = 500
    start_time = time.time()

    for idx, (label, text, offsets) in enumerate(dataloader):
        optimizer.zero_grad()
        predicted_label = model(text, offsets)
        loss = criterion(predicted_label, label.to(torch.float32))
        loss.backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), 0.1)
        optimizer.step()
        total_acc += (predicted_label.argmax(1) == label.argmax(1)).sum().item()
        total_count += label.size(0)
        if idx % log_interval == 0 and idx > 0:
            elapsed = time.time() - start_time
            print('| epoch {:3d} | {:5d}/{:5d} batches '
                  '| accuracy {:8.3f}'.format(epo, idx, len(dataloader),
                                              total_acc / total_count))
            total_acc, total_count = 0, 0
            start_time = time.time()


def evaluate(dataloader):
    model.eval()
    total_acc, total_count = 0, 0

    with torch.no_grad():
        for idx, (label, text, offsets) in enumerate(dataloader):
            predicted_label = model(text, offsets)
            loss = criterion(predicted_label, label.to(torch.float32))
            total_acc += (predicted_label.argmax(1) == label.argmax(1)).sum().item()
            total_count += label.size(0)
    return total_acc / total_count


device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

train_iter = iter(Imdb_Datasets(r"imdb"))
vocab = build_vocab_from_iterator(yield_tokens(train_iter), specials=["<unk>"])
vocab.set_default_index(vocab["<unk>"])

text_pipeline = lambda x: vocab(tokenize(x))
label_pipeline = lambda x: x

PATH = "imdb"

# todo: Hyper-parameter to net
vb_size = len(vocab)
emsize = 128
LR = 5
EPOCH = 30
BATCH_SIZE = 64

train_imdb_Dataset = Imdb_Datasets(PATH, train=True)
test_imdb_Dataset = Imdb_Datasets(PATH, train=False)

num_train = int(len(test_imdb_Dataset) * 0.95)
split_train_, split_valid_ = random_split(test_imdb_Dataset, [num_train, len(test_imdb_Dataset) - num_train])

train_dataloader = DataLoader(split_train_, batch_size=BATCH_SIZE, shuffle=False, collate_fn=collate_batch)
test_dataloader = DataLoader(test_imdb_Dataset, batch_size=BATCH_SIZE, shuffle=False, collate_fn=collate_batch)
val_dataloader = DataLoader(split_valid_, batch_size=BATCH_SIZE, shuffle=False, collate_fn=collate_batch)

model = Imdb_Sentiment_classify(vocab_size=vb_size, embed_dim=emsize).to(device)
print(model)
for i, j, k in train_dataloader:
    print(f"label:{i.shape}\ntext:{j.shape}\noffsets:{k.shape}")
    output = model(j, k)
    print(f"output shape: {output.shape}")
    print("-" * 10 + "show some detail" + "-" * 10)
    break

criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=LR)
scheduler = torch.optim.lr_scheduler.StepLR(optimizer, 1, gamma=0.1)

total_accu = None
for epoch in range(1, EPOCH + 1):
    epoch_start_time = time.time()
    train(train_dataloader, epo=epoch)
    accu_val = evaluate(val_dataloader)
    if total_accu is not None and total_accu > accu_val:
        scheduler.step()
    else:
        total_accu = accu_val
    print('-' * 59)
    print('| end of epoch {:3d} | time: {:5.2f}s | '
          'valid accuracy {:8.3f} '.format(epoch,
                                           time.time() - epoch_start_time,
                                           accu_val))
    print('-' * 59)
# 19：02 start

output:

D:\Python\python.exe D:/1PythonProject/RNN/imdb_sentiment_classify.py
Imdb_Sentiment_classify(
  (embedding): EmbeddingBag(87928, 128, mode=mean)
  (gru): GRU(128, 64, num_layers=2, dropout=0.5)
  (fc): Sequential(
    (0): Linear(in_features=64, out_features=128, bias=True)
    (1): ReLU()
    (2): Linear(in_features=128, out_features=2, bias=True)
    (3): Softmax(dim=None)
  )
)
label:torch.Size([64, 2])
text:torch.Size([16989])
offsets:torch.Size([64])
D:\Python\lib\site-packages\torch\nn\modules\container.py:141: UserWarning: Implicit dimension choice for softmax has been deprecated. Change the call to include dim=X as an argument.
  input = module(input)
output shape: torch.Size([64, 2])
----------show some detail----------
-----------------------------------------------------------
| end of epoch   1 | time: 394.94s | valid accuracy    0.530 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch   2 | time: 94.51s | valid accuracy    0.544 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch   3 | time: 57.92s | valid accuracy    0.552 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch   4 | time: 61.43s | valid accuracy    0.546 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch   5 | time: 58.15s | valid accuracy    0.544 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch   6 | time: 57.27s | valid accuracy    0.543 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch   7 | time: 57.30s | valid accuracy    0.542 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch   8 | time: 57.17s | valid accuracy    0.542 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch   9 | time: 57.27s | valid accuracy    0.542 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch  10 | time: 57.17s | valid accuracy    0.542 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch  11 | time: 57.14s | valid accuracy    0.542 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch  12 | time: 57.12s | valid accuracy    0.542 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch  13 | time: 57.16s | valid accuracy    0.542 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch  14 | time: 57.12s | valid accuracy    0.542 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch  15 | time: 57.12s | valid accuracy    0.542 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch  16 | time: 57.25s | valid accuracy    0.542 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch  17 | time: 57.24s | valid accuracy    0.542 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch  18 | time: 57.23s | valid accuracy    0.542 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch  19 | time: 57.11s | valid accuracy    0.542 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch  20 | time: 57.13s | valid accuracy    0.542 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch  21 | time: 57.14s | valid accuracy    0.542 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch  22 | time: 57.49s | valid accuracy    0.542 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch  23 | time: 57.08s | valid accuracy    0.542 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch  24 | time: 59.55s | valid accuracy    0.542 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch  25 | time: 59.04s | valid accuracy    0.542 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch  26 | time: 59.13s | valid accuracy    0.542 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch  27 | time: 59.06s | valid accuracy    0.542 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch  28 | time: 59.17s | valid accuracy    0.542 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch  29 | time: 59.00s | valid accuracy    0.542 
-----------------------------------------------------------
-----------------------------------------------------------
| end of epoch  30 | time: 59.05s | valid accuracy    0.542 
-----------------------------------------------------------

Process finished with exit code 0

GRU訓練情感分類器（程式碼）

import re import time import os import pandas as pd import torch from torch import nn from torch.utils.data import DataLoader, Dataset, random_split

最小二乘支援向量機分類器（LSSVM）及Python實現

技術標籤：機器學習python最小二乘支援向量機支援向量機LSSVM 最小二乘支援向量機分類器

深度學習與Pytorch入門實戰（十六）情感分類實戰（基於IMDB資料集）

筆記摘抄提前安裝torchtext和scapy，執行下面語句（壓縮包地址連結：https://pan.baidu.com/s/1_syic9B-SXKQvkvHlEf78w 提取碼：ahh3）：

SpringMvc自定義攔截器（註解）程式碼例項

攔截器自定義攔截器實現HandlerInterceptor介面的三個方法。 public class MyInterceptor implements HandlerInterceptor{

ISLR讀書筆記十六：最大邊際分類器（maximal margin classifier）

最大邊際分類器前言超平面分離超平面最大邊際超平面前言本篇和接下來的兩篇將介紹一種重要的分類方法：支援向量機（support vector machines）。本篇主要講的是最大邊際分類器（maximal margin clas

新增javascript程式碼:_JavaScript第二十四篇高階定時器（上）

技術標籤：新增javascript程式碼: 使用 setTimeout()和 s etInterval()建立的定時器可以用於實現有趣且有用的功能。雖然人們對 JavaScript 的定時器存在普遍的誤解，認為它們是執行緒，其實 JavaScript 是運行

.Net Core微服務入門全紀錄（四）——Ocelot-API閘道器（上）

前言上一篇【.Net Core微服務入門全紀錄（三）——Consul-服務註冊與發現（下）】已經使用Consul完成了服務的註冊與發現，實際中光有服務註冊與發現往往是不夠的，我們需要一個統一的入口來連線客戶端與服務。

我終於弄懂了Python的裝飾器（一）

此係列檔案： 1. 我終於弄懂了Python的裝飾器（一） 2. 我終於弄懂了Python的裝飾器（二）

我終於弄懂了Python的裝飾器（二）

此係列檔案： 1. 我終於弄懂了Python的裝飾器（一） 2. 我終於弄懂了Python的裝飾器（二）

我終於弄懂了Python的裝飾器（四）

此係列檔案： 1. 我終於弄懂了Python的裝飾器（一） 2. 我終於弄懂了Python的裝飾器（二）

淺析C# 索引器（Indexer）

索引器（Indexer）允許一個物件可以像陣列一樣被索引。當您為類定義一個索引器時，該類的行為就會像一個虛擬陣列（virtual array）一樣。您可以使用陣列訪問運算子（[ ]）來訪問該類的例項。

從零搭建Spring Cloud Gateway閘道器（三）——報文結構轉換

背景作為閘道器，有些時候可能報文的結構並不符合前端或者某些服務的需求，或者因為某些原因，其他服務修改報文結構特別麻煩、或者需要修改的地方特別多，這個時候就需要走閘道器單獨轉換一次。

c# 區分幾種定時器（timer）

1、前言不知道你是否對.NET裡面的定時器產生過一些疑問，以下是武小棧個人的一些總結。

Python學習————序列化器（複習）

序列化器序列化器可以把模型物件轉換成字典，經過response以後程式設計json字串

淺談SpringMVC的攔截器（Interceptor）和Servlet 的過濾器（Filter）的區別與聯絡及SpringMVC 的配置檔案

1.過濾器: 　　依賴於servlet容器。在實現上基於函式回撥，可以對幾乎所有請求進行過濾，但是缺點是一個過濾器例項只能在容器初始化時呼叫一次。使用過濾器的目的是用來做一些過濾操作，獲取我們想要獲取的資料.

.netcore的微服務學習（四）--閘道器（gateway）之Ocelot+Consul+polly學習

一，接著前面的程式碼，我們先引用Ocelot.Provider.Polly，然後我們的startup接著配置下，如下

Halcon訓練OCR分類器舉例

進行OCR的時候，同一個字元，通常需要很多字元小圖，這樣圖片多了，才能訓練出健壯的分類器。如何自動化地執行該過程呢？我提供一種思路。

SpringMvc自定義攔截器（註解）

攔截器自定義攔截器實現HandlerInterceptor介面的三個方法。 public class MyInterceptor implements HandlerInterceptor{

裝飾器（1）

一、定義裝飾器就是閉包函式的一種應用場景裝飾器他人的器具，本身可以是任意可呼叫物件，被裝飾者也可以是任意可呼叫物件。強調裝飾器的原則：1 不修改被裝飾物件的原始碼 2 不修改被裝飾物件的呼叫方式裝飾器的目

【學習筆記】Pytorch深度學習—優化器（二）

前面學習過了Pytorch中優化器optimizer的基本屬性和方法，優化器optimizer的主要功能是 “管理模型中的可學習引數，並利用引數的梯度grad以一定的策略進行更新”。本節內容分為4部分，(1)、（2）首先了解2個重要概念

GRU訓練情感分類器（程式碼）

相關推薦