如何處理句對文字分類的資料問題？

阿新 • • 發佈：2022-03-29

將要做試驗了突然發現不會這個問題。

來源連結：CSDN https://blog.csdn.net/qq_42464569/article/details/123239558

處理句子對
有時可能需要將一對句子送入模型。比如，我們需要判斷兩個句子是否相似；或我們在使用問答模型，需要將文字和問題送入模型。對於BERT模型，句子對需要轉化為如下形式：[CLS] Sequence A [SEP] Sequence B [SEP]

在使用Transformers處理句子對時，我們需要將兩個句子以不同的變數傳入文字標記器中（注意，並不是像之前那樣整合成列表，而是兩個分開的變數）。然後我們會得到一個對應的字典，如下例：

從結果我們可以看出token_type_ids的作用：它們告訴模型輸入的那個部分屬於第一個句子，那個部分屬於第二個句子。需要注意的是，並不是所有模型都需要token_tyoe_ids。預設情況下，文字標記器只會返回與模型相關的期望輸入。你可以傳入一些如return_token_type_ids或return_length的引數來改變文字標記器的輸出。

輸出：
{'input_ids': [101, 1731, 1385, 1132, 1128, 136, 102, 146, 112, 182, 127, 1201, 1385, 102], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'length': 14}

同樣，如果你向一次性處理多條語句，你可以分別傳入兩個文字列表。如下：

如何處理句對文字分類的資料問題？

如何處理句對文字分類的資料問題？

AEDA:文字分類資料增強【轉載以學習、回憶】

pytorch實現用CNN和LSTM對文字進行分類方式

利用pytorch實現對CIFAR-10資料集的分類

python資料處理——對pandas進行資料變頻或插值例項

Tensorflow暑期實踐——使用卷積神經網路對CIFAR-10資料集進行分類

jmeter對JSON返回資料處理和後續呼叫

對返回的資料進行歸類處理

利用TfidfVectorizer進行中文文字分類（資料集是復旦中文語料）

（pytorch-深度學習系列）使用softmax迴歸實現對Fashion-MNIST資料集進行分類-學習筆記

（pytorch-深度學習系列）pytorch實現多層感知機（自動定義模型）對Fashion-MNIST資料集進行分類-學習筆記

利用RNN進行中文文字分類（資料集是復旦中文語料）

Albert處理文字分類任務

利用transforms Dataset DataLoader對影象資料進行處理並構建自己的資料集

mapminmax對2維的資料進行歸一化處理，而對一維資料進行反歸一化處理，會是什麼結果？答案是對該一維資料進行了兩個反歸一化處理。

Shell——awk文字和資料處理程式語言

Bert文字分類實踐（三）：處理樣本不均衡和提升模型魯棒性trick

基於Kaggle資料的詞袋模型文字分類教程

用R語言實現對不平衡資料的四種處理方法

第十一章正則表示式(bash對文字的處理)

如何處理句對文字分類的資料問題？

相關推薦