1. 程式人生 > 其它 >如何處理句對文字分類的資料問題?

如何處理句對文字分類的資料問題?

將要做試驗了突然發現不會這個問題。

來源連結:CSDN https://blog.csdn.net/qq_42464569/article/details/123239558

處理句子對
有時可能需要將一對句子送入模型。比如,我們需要判斷兩個句子是否相似;或我們在使用問答模型,需要將文字和問題送入模型。對於BERT模型,句子對需要轉化為如下形式:[CLS] Sequence A [SEP] Sequence B [SEP]

在使用Transformers處理句子對時,我們需要將兩個句子以不同的變數傳入文字標記器中(注意,並不是像之前那樣整合成列表,而是兩個分開的變數)。然後我們會得到一個對應的字典,如下例:

 

 

從結果我們可以看出token_type_ids的作用:它們告訴模型輸入的那個部分屬於第一個句子,那個部分屬於第二個句子。需要注意的是,並不是所有模型都需要token_tyoe_ids。預設情況下,文字標記器只會返回與模型相關的期望輸入。你可以傳入一些如return_token_type_ids或return_length的引數來改變文字標記器的輸出。

 

 

輸出:
{'input_ids': [101, 1731, 1385, 1132, 1128, 136, 102, 146, 112, 182, 127, 1201, 1385, 102], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'length': 14}

 


同樣,如果你向一次性處理多條語句,你可以分別傳入兩個文字列表。如下: