bert載入資料程式碼

阿新 • • 發佈：2020-07-21

from torch.utils.data import Dataset
import tqdm
import json
import torch
import random
import numpy as np
from sklearn.utils import shuffle


class BERTDataset(Dataset):
    def __init__(self, corpus_path, word2idx_path, seq_len, hidden_dim=384, on_memory=True):
        # hidden dimension for positional encoding 

        self.hidden_dim = hidden_dim
        # define path of dicts
        self.word2idx_path = word2idx_path
        # define max length
        self.seq_len = seq_len
        # load whole corpus at once or not
        self.on_memory = on_memory
        # directory of corpus dataset
        self.corpus_path = corpus_path
         
# define special symbols
        self.pad_index = 0
        self.unk_index = 1
        self.cls_index = 2
        self.sep_index = 3
        self.mask_index = 4
        self.num_index = 5

        # 載入字典
        with open(word2idx_path, "r", encoding="utf-8") as f:
            self.word2idx = json.load(f)

         
# 載入語料
        with open(corpus_path, "r", encoding="utf-8") as f:
            if not on_memory:
                # 如果不將資料集直接載入到記憶體, 則需先確定語料行數
                self.corpus_lines = 0
                for _ in tqdm.tqdm(f, desc="Loading Dataset"):
                    self.corpus_lines += 1

            if on_memory:
                # 將資料集全部載入到記憶體
                self.lines = [eval(line) for line in tqdm.tqdm(f, desc="Loading Dataset")]
                self.corpus_lines = len(self.lines)

        if not on_memory:
            # 如果不全部載入到記憶體, 首先開啟語料
            self.file = open(corpus_path, "r", encoding="utf-8")
            # 然後再開啟同樣的語料, 用來抽取負樣本
            self.random_file = open(corpus_path, "r", encoding="utf-8")
            # 下面是為了錯位抽取負樣本
            for _ in range(np.random.randint(self.corpus_lines if self.corpus_lines < 1000 else 1000)):
                self.random_file.__next__()

    def __len__(self):
        return self.corpus_lines

    def __getitem__(self, item):
        t1, t2, is_next_label = self.random_sent(item)

        t1_random, t1_label = self.random_char(t1)
        t2_random, t2_label = self.random_char(t2)

        t1 = [self.cls_index] + t1_random + [self.sep_index]
        t2 = t2_random + [self.sep_index]

        t1_label = [self.pad_index] + t1_label + [self.pad_index]
        t2_label = t2_label + [self.pad_index]

        segment_label = ([0 for _ in range(len(t1))] + [1 for _ in range(len(t2))])[:self.seq_len]
        bert_input = (t1 + t2)[:self.seq_len]
        bert_label = (t1_label + t2_label)[:self.seq_len]

        output = {"bert_input": torch.tensor(bert_input),
                  "bert_label": torch.tensor(bert_label),
                  "segment_label": torch.tensor(segment_label),
                  "is_next": torch.tensor([is_next_label])}

        return output

    def tokenize_char(self, segments):
        return [self.word2idx.get(char, self.unk_index) for char in segments]

    def random_char(self, sentence):
        char_tokens_ = list(sentence)
        char_tokens = self.tokenize_char(char_tokens_)

        output_label = []
        for i, token in enumerate(char_tokens):
            prob = random.random()
            if prob < 0.30:
                prob /= 0.30
                output_label.append(char_tokens[i])
                # 80% randomly change token to mask token
                if prob < 0.8:
                    char_tokens[i] = self.mask_index
                # 10% randomly change token to random token
                elif prob < 0.9:
                    char_tokens[i] = random.randrange(len(self.word2idx))
            else:
                output_label.append(0)
        return char_tokens, output_label


    def random_sent(self, index):
        t1, t2 = self.get_corpus_line(index)

        # output_text, label(isNotNext:0, isNext:1)
        if random.random() > 0.5:
            return t1, t2, 1
        else:
            return t1, self.get_random_line(), 0

    def get_corpus_line(self, item):
        if self.on_memory:
            return self.lines[item]["text1"], self.lines[item]["text2"]
        else:
            line = self.file.__next__()
            if line is None:
                self.file.close()
                self.file = open(self.corpus_path, "r", encoding="utf-8")
                line = self.file.__next__()
            line = eval(line)
            t1, t2 = line["text1"], line["text2"]
            return t1, t2

    def get_random_line(self):
        if self.on_memory:
            return self.lines[random.randrange(len(self.lines))]["text2"]

        line = self.random_file.__next__()
        if line is None:
            self.random_file.close()
            self.random_file = open(self.corpus_path, "r", encoding="utf-8")
            for _ in range(np.random.randint(self.corpus_lines if self.corpus_lines < 1000 else 1000)):
                self.random_file.__next__()
            line = self.random_file.__next__()
        return eval(line)["text2"]

bert載入資料程式碼

from torch.utils.data import Dataset import tqdm import json import torch import random import numpy as np

MySQL中查詢某一天, 某一月, 某一年的資料程式碼詳解

今天 select * from 表名 where to_days(時間欄位名) = to_days(now()); 昨天(包括昨天和今天的資料)

SpringJDBC批量處理資料程式碼示例

引數: List<Map> paramMaps = new ArrayList<Map>(); for(int i = 0; i < 100; i++ ){ Map paramMap = new HashMap();

python 向量資料轉柵格資料程式碼例項

這篇文章主要介紹了python 向量資料轉柵格資料程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

使用Python指令碼從檔案讀取資料程式碼例項

這篇文章主要介紹了使用Python指令碼從檔案讀取資料程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

C/C++讀寫登錄檔中二進位制資料(程式碼示例)

1、RegOpenKeyEx 函式：原形： LONGRegOpenKeyEx( HKEYhKey,//要開啟主鍵名 LPCTSTRlpSubKey,// 需要開啟的子鍵或路徑

Vue中import from的來源及省略字尾與載入資料夾問題

Vue使用import ... from ...來匯入元件，庫，變數等。而from後的來源可以是js，vue，json。這個是在webpack.base.conf.js中設定的：

Spring Boot專案維護全域性json資料程式碼例項

這篇文章主要介紹了Spring Boot專案維護全域性json資料程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

JAVA如何轉換樹結構資料程式碼例項

在實戰開發中經常有需要處理樹形選單、樹形目錄等等等業務需求。而對於這種產品，在設計資料庫時也建議使用id<----->parentId的結構來做。但是最終前端顯示多用hightChart或者Echart外掛來實現。所以在給前端資

Pyspark獲取並處理RDD資料程式碼例項

彈性分散式資料集（RDD）是一組不可變的JVM物件的分佈集，可以用於執行高速運算，它是Apache Spark的核心。

Struts2返回json格式資料程式碼例項

最近由於工作原因，沒時間更新，開始吧~~ 關於json的返回需要用到一個工具包來將書轉換為json格式，在此用到的jar包為：

python實現在記憶體中讀寫str和二進位制資料程式碼

我就廢話不多說了，還是直接看程式碼吧！ # 利用python在記憶體中讀寫str和二進位制資料

Python selenium爬取微博資料程式碼例項

爬取某人的微博資料，把某人所有時間段的微博資料都爬下來。具體思路：建立driver-----get網頁----找到並提取資訊-----儲存csv----翻頁----get網頁（開始迴圈）----...----沒有“下一頁”就結束，

C#快取載入資料與讀取

#轉自：https://blog.csdn.net/qq_24025219/article/details/96734660 https://blog.csdn.net/nnn_net/article/details/53394603

Java靜態程式碼塊載入驅動程式碼例項

Demo1.funx(); String s=Demo1.string; 靜態程式碼塊會在new一個該類物件時呼叫或者呼叫該類的靜態方法,靜態成員變數時呼叫

PHP使用Http Post請求傳送Json物件資料程式碼解析

因專案的需要，PHP呼叫第三方 Java/.Net 寫好的 Restful Api，其中有些介面，需要在傳送 POST 請求時，傳入物件。

Python faker生成器生成虛擬資料程式碼例項

今天給大家介紹一個Faker模組，一款基於Python的測試資料生成工具，無論是用於初始化資料庫，建立XML檔案，或是生成壓測資料，Faker都是不錯的選擇。

Vue無限滾動載入資料

Web專案經常會用到下拉滾動載入資料的功能，今天就來種草 Vue-infinite-loading 這個外掛，講解一下使用方法！

React之生命週期載入資料

import React, { Component } from \'react\'; import axios from \'axios\'; class Axios extends Component {

Flink(三) Flink 程式設計模型之建立和載入資料集

Flink(三) Flink 程式設計模型之建立和載入資料集所有的 Flink 程式都是由三部分組成的： Source 、Transformation 和 Sink。

bert載入資料程式碼

相關推薦