預訓練模型transformers綜合總結（二）

阿新 • • 發佈：2021-02-06

接著第一部分，這裡寫如何使用自定義資料集，呼叫transformers庫去訓練模型，其實感覺本質就是如何把資料集合理讀取進來。

文字分類

使用aclImdb資料集，我比較傾向於直接用list把文字給讀取進來

（一）資料準備

#資料讀取
from pathlib import Path

def read_imdb_split(split_dir):
    split_dir = Path(split_dir)
    texts = []
    labels = []
    for label_dir in ["pos", "neg"]:
        for text_file in (split_dir/label_dir).iterdir():
            texts.append(text_file.read_text())
            labels.append(0 if label_dir is "neg" else 1)

    return texts, labels

train_texts, train_labels = read_imdb_split('aclImdb/train')
test_texts, test_labels = read_imdb_split('aclImdb/test')
#資料處理
from sklearn.model_selection import train_test_split
train_texts, val_texts, train_labels, val_labels = train_test_split(train_texts, train_labels, test_size=.2)

##分詞
from transformers import DistilBertTokenizerFast
tokenizer = DistilBertTokenizerFast.from_pretrained('distilbert-base-uncased')
##文字向量化
train_encodings = tokenizer(train_texts, truncation=True, padding=True)
val_encodings = tokenizer(val_texts, truncation=True, padding=True)
test_encodings = tokenizer(test_texts, truncation=True, padding=True)

（二）管道搭建

1.使用pytorch的方式實現

import torch

class IMDbDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(self.labels[idx])
        return item

    def __len__(self):
        return len(self.labels)

train_dataset = IMDbDataset(train_encodings, train_labels)
val_dataset = IMDbDataset(val_encodings, val_labels)
test_dataset = IMDbDataset(test_encodings, test_labels)

2.使用tensorflow的方式實現

import tensorflow as tf

train_dataset = tf.data.Dataset.from_tensor_slices((
    dict(train_encodings),
    train_labels
))
val_dataset = tf.data.Dataset.from_tensor_slices((
    dict(val_encodings),
    val_labels
))
test_dataset = tf.data.Dataset.from_tensor_slices((
    dict(test_encodings),
    test_labels
))

（三）訓練模式

1.使用自帶訓練函式訓練

（1）使用pytorch的方式實現

model_path="H:\\code\\Model\\distilbert-base-cased\\"
from transformers import DistilBertForSequenceClassification, Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir='./results',          # output directory
    num_train_epochs=3,              # total number of training epochs
    per_device_train_batch_size=16,  # batch size per device during training
    per_device_eval_batch_size=64,   # batch size for evaluation
    warmup_steps=500,                # number of warmup steps for learning rate scheduler
    weight_decay=0.01,               # strength of weight decay
    logging_dir='./logs',            # directory for storing logs
    logging_steps=10,
)

model = DistilBertForSequenceClassification.from_pretrained(model_path)

trainer = Trainer(
    model=model,                         # the instantiated

 

             
          
              
           
               
              
             
            
            
            相關推薦
			   
            
            
            
 

    

    
    預訓練模型transformers綜合總結（二）
    技術標籤：深度學習自然語言處理
接著第一部分，這裡寫如何使用自定義資料集，呼叫transformers庫去訓練模型，其實感覺本質就是如何把資料集合理讀取進來。 

  
 

    

    
    微信小程式學習總結（二）樣式、屬性、模板操作分析
    本文例項講述了微信小程式樣式、屬性、模板操作。分享給大家供大家參考，具體如下： 

  
 

    

    
    CTF知識點總結（二）
    異或注入
異或注入：兩個條件相同（同真或同假）即為假。
http://120.24.86.145:9004/1ndex.php?id=1\'^(length(\'union\')!=0)--+ 

  
 

    

    
    Css細節個人總結（二）
    Css細節總結
盒子模型（box-model）box-sizing
所謂盒子模型（Box Model）就是把HTML頁面中的元素看作是一個矩形的盒子，也就是一個盛裝內容的容器。每個矩形都由元素的內容(content)、內邊距（padding）、邊框（bor 

  
 

    

    
    Css個人細節總結（二）
    Css細節總結
盒子模型（box-model）box-sizing
所謂盒子模型（Box Model）就是把HTML頁面中的元素看作是一個矩形的盒子，也就是一個盛裝內容的容器。每個矩形都由元素的內容(content)、內邊距（padding）、邊框（bor 

  
 

    

    
    Array知識點總結（二）
    陣列中的常用方法補充
1.contact
contact用於將兩個陣列中的內容合併在一起。會生成一個新的陣列 

  
 

    

    
    LC演算法技巧總結（二）：雙指標和滑動視窗技巧
    我把雙指標技巧再分為兩類，一類是「快慢指標」，一類是「左右指標」。前者解決主要解決連結串列中的問題，比如典型的判定連結串列中是否包含環；後者主要解決陣列（或者字串）中的問題，比如二分查詢。 

  
 

    

    
    C#基礎總結（二）
    異常捕獲：
 try
{
有可能出現錯誤的程式碼寫在這裡
}
catch
{
出錯後的處理
}
上面的程式如何執行： 

  
 

    

    
    博思軟體實訓總結（二）
    博思軟體實訓總結（二）
由於我負責的模組是基礎資料服務，大量用到tkmybatis框架的東西，所以這篇部落格著重介紹一下tkmybatis。 

  
 

    

    
    嵌入式中常見的儲存器總結（二）SRAM VS DRAM
    DRAM和SRAM儲存器特性表1DRAM和SRAM儲存器特性表2參考文獻 [1] Randal E.Bryant，David R.O’Hallaron；龔奕利，雷迎春譯.深入理解計算機系統[M].北京：機械工業出版社，2010.11 

  
 

    

    
    學習總結（二）
    小小的學習總結（內容比較雜亂。。）
- excel資料匹配（vlookup） ①VLOOKUP(B339,大類名稱!A44:C91,2,FALSE)： 往下拖時易出錯 ②VLOOKUP(B339,大類名稱!A$44:C$91,2,FALSE)： 正解（觀察第二個引數) 不能 

  
 

    

    
    mysql總結（二）
    mysql explain是什麼？有什麼作用？描述下type

EXPLAIN是一個關鍵字，使用EXPLAIN關鍵字可以模擬優化器執行SQL查詢語句，從而知道MySQL是如何處理SQL語句的，分析查詢語句或是表結構的效能瓶頸。 作用： ① 

  
 

    

    
    ORCLA基礎總結（二）
    SET 運算子

使用 SET 操作符注意事項
在SELECT 列表中的列名和表示式在**數量和資料型別**上要相對應 

  
 

    

    
    mpvue微信小程式開發總結（二）--- vant-weapp元件
    技術標籤：vuevantvuevant小程式mpvue
使用vant-weapp元件

本文以vant-weapp為例 步驟見官網快速上手：https://vant-contrib.gitee.io/vant-weapp/#/quickstart 

  
 

    

    
    資料結構 經典排序演算法總結（二）
    技術標籤：資料結構排序演算法快速排序資料結構演算法
資料結構 經典排序演算法總結（二） 

  
 

    

    
    MyBatis學習總結（二）：MyBatis的CRUD操作
    技術標籤：MyBatis學習mybatismysqljava
一、基於XML的CRUD操作
前面在入門程式中實現了對資料庫中所有資料的查詢。接下來就基於入門程式的基礎上，實現對資料庫資料的CRUD。 

  
 

    

    
    C#開啟WiFi熱點，WiFi共享的四種方式總結（二）
    拚忘的部落格園要開始寫隨筆了，第一期就先講講wifi熱點吧.....
持續更新C#、wpf、.NetCore相關內容，歡迎關注！！ 

  
 

    

    
    Redis之叢集知識點總結（二）-- 原始碼分析
    一 叢集的資料結構
　　ClusterNode
　　clusterNode 結構儲存了一個節點的當前狀態，比如節點的建立時間、節點的名字、節點 當前的配置紀元、節點的IP地址和埠號等等。除此之外，clusterNode結構的 link 屬性是一個 

  
 

    

    
    業務系統資料庫設計經驗總結（二）
    　　從一個生產環境的退款bug說起。
　　由於生產環境中第三方支付的一些規則不熟悉（第三方支付環境是在每天凌晨進行結賬，所以使用者的資金池裡的金額會被清0，此時使用者退款時會提示餘額不足無法退款），所以使 

  
 

    

    
    Spring MVC 學習總結（二）——控制器定義與@RequestMapping詳解
    目錄

一、控制器定義

1.1、實現介面Controller定義控制器
1.2、使用註解@Controller定義控制器