torchtext.vocab.build_vocab_from_iterator的引數介紹以及使用

阿新 • • 發佈：2022-12-10

build_vocab_from_iterator的引數介紹以及使用

因為使用的時候不知道specials引數是什麼意思，網上也沒找到一個比較好的解釋，所以記錄一下

這個函式的作用是從一個可迭代物件中統計token的頻次，並返回一個vocab(詞彙字典)

torchtext.vocab.build_vocab_from_iterator(iterator: Iterable, min_freq: int = 1, 
        specials: Optional[List[str]] = None, special_first: bool = True, 
        max_tokens: Optional[int] = None) → torchtext.vocab.vocab.Vocab

上述是官網API介面的定義形式，引數有五個，返回值是Vocab型別例項，五個引數分別是：

iterator：一個用於建立vocab(詞彙字典)的可迭代物件
min_freq：最小頻數。只有在文字中出現頻率大於等於min_freq的token才會被保留下來
specials：特殊標誌，字串列表。用於在詞彙字典中新增一些特殊的token/標記，比如最常用的'<unk>'，用於代表詞彙字典中未存在的token，當然也可以用自己喜歡的符號來代替(PS:用"雞你太美"也行)，具體的意義也取決於用的人。(PS:'<unk>'一般用於表示未知token，也可以用"雞你太美"表示未知token)

special_first：表示是否將specials放到字典的最前面，預設是True
max_tokens：即限制一下這個詞彙字典的最大長度。且這個長度包含的specials列表的長度

以上需要注意的幾點：

若是specials設定為了False，則直接預設加在末尾
通過該方法建立的vocab預設按照頻次從大到小的順序排列，若specials_first為True，則specials在最前面
max_tokens也是按照vocab的順序，從前往後的儲存\
一般使用\<unk\>時，通常配合set_default_index()一起使用

舉例：

import torchtext

sentences = [["The", "cat", "sat", "on", "the", "mat"], ["The", "dog", "played", "with", "cat", "ball"], ['cat', 'like', 'dog', 'kidding']]
# min_feq設定最小頻率為1，即只要出現過的都不會在這裡被篩掉
# max_tokens設定為10，表示詞典的長度為10，但是因為有了specials，所以真正的詞典中有效token為9個
vocab = torchtext.vocab.build_vocab_from_iterator(sentences, min_freq=1, max_tokens=10, specials=['<unk>'])
# 設定預設索引，若是索引的單詞不在詞典內，則返回0，此例中0與<unk>對應
vocab.set_default_index(0)

# 檢視詞典(字典形式)
vocab.get_stoi()
# {'dog': 3,'<unk>': 0, 'kidding': 5, 'cat': 1, 'ball': 4, 'The': 2, 'like': 6, 'mat': 7, 'on': 8, 'played': 9}

# 檢視字典(列表形式)
vocab.get_itos()
# ['<unk>', 'cat', 'The', 'dog', 'ball', 'kidding', 'like', 'mat', 'on', 'played']

剛剛接觸這個領域，有什麼錯誤大佬們隨時指出

torchtext.vocab.build_vocab_from_iterator的引數介紹以及使用

build_vocab_from_iterator的引數介紹以及使用因為使用的時候不知道specials引數是什麼意思，網上也沒找到一個比較好的解釋，所以記錄一下

pyinstaller引數介紹以及總結

一、pyinstaller相關引數 -F,–onefile 打包一個單個檔案，如果你的程式碼都寫在一個.py檔案的話，可以用這個，如果是多個.py檔案就別用-D,–onedir 打包多個檔案，在dist中生成很多依賴檔案，適合以框架形式編寫

Request_獲取請求引數通用方式介紹以及方式演示

Request_獲取請求引數通用方式介紹以及方式演示獲取請求引數通用方式：無論get還是post請求方式都可以使用下列方法來獲取請求引數

微信小程式分享小程式碼的生成（帶引數）以及引數的獲取

1.小程式碼介紹從微信小程式開發文件上我們可以瞭解到，目前微信支援兩種二維碼（左），小程式碼和小程式二維碼（右）。官方推薦使用小程式碼，因為小程式碼具有更好的辨識度。

MyBatis框架介紹以及快速入門

MyBatis框架今日學習內容目標能夠了解什麼是框架理解自定義Mybatis框架掌握Mybatis框架開發快速入門

關於多引數排序以及api升序降序排序

1. 關於多引數排序問題有兩種方法可以解決多引數排序的問題第一種是繼承comparable介面，並複寫compareto方法，這樣就可以直接使用Collections.sort()方法進行排序

【java基礎】Java中Arrays的介紹以及使用

arrays介紹 java.util.Arrays是一個與陣列相關的工具類，裡面提供了大量的靜態的方法，用來實現陣列常見的操作。public static String toString(陣列)：將引數陣列程式設計字串（按照預設的格式：{元素1、元素2、元素

Paillier同態加密的介紹以及c++實現

我們先來簡短認識一下Paillier同態加密演算法：如果就這麼按照定義來用最簡樸的c++程式寫就像這樣：

【Python】介紹以及環境搭建

Python簡介 Python介紹 Python是時下最流流、最火爆的程式語言之一，具體原因如下：

python爬蟲中get和post方法介紹以及cookie作用

首先確定你要爬取的目標網站的表單提交方式，可以通過開發者工具看到。這裡推薦使用chrome。

Hadoop的介紹以及發展歷史

Hadoop的介紹以及發展歷史 Hadoop最早起源於lucene下的Nutch。Nutch的設計目標是構建一個大型的全網搜尋引擎，包括網頁抓取、索引、查詢等功能，但隨著抓取網頁數量的增加，遇到了嚴重的可擴充套件性問題—

PNM介紹以及FFMPEG如何去decode && encode PNM

1 PNM 介紹 PBM(portable bitmap,可移植點陣圖格式),PGM(portable greymap,可移植灰度圖格式),PPM(portable pixmap,可移植畫素圖格式)，三者統稱為PNM(Portable any map)。分別為點陣圖,灰度圖,畫素圖,可

Java httpClient介紹以及使用示例

Java 開發語言中實現HTTP請求的方法主要有兩種：一種是JAVA的標準類HttpUrlConnection，比較原生的實現方法；另一種是第三方開源框架HTTPClient。

php ob快取介紹以及ob函式詳解

ob快取介紹 ob是output buffering的簡稱，輸出緩衝區，緩衝區是通過php.ini中的output_buffering變數控制的。其預設值是off,可以設定為on來開啟buffer。打來buffer後，即便程式中沒有用ob函式，實際上程式碼也是使用

介面介紹以及postman的基本使用

整合測試——測試介面介面測試也是在測試執行階段做一、什麼是介面軟體的不同模組之間互相傳送資料的一個通道

Delphi TOpenDialog的使用介紹以及如何動態建立和釋放

Delphi TOpenDialog的使用介紹以及如何動態建立和釋放 1、常用屬性 DefaultExt：當用戶未輸入副檔名時它用於指明預設的副檔名。

資料開發_Python和Java在函式引數傳遞以及賦值的總結

理解的角度函式引數傳遞機制和變數賦值函式呼叫的角度值傳遞（passl-by-value），是把實參的值賦值給形參。那麼對形參的修改，不影響實參的值

網路時間協議介紹以及伺服器同步網路時間

NTP介紹網路時間協議（英語：Network Time Protocol，縮寫：NTP）是在資料網路潛伏時間可變的計算機系統之間通過分組交換進行時鐘同步的一個網路協議，位於OSI模型的應用層。自1985年以來，NTP是目前仍在使用的最古

mysqldump中skip-tz-utc引數介紹

前言：在前面文章中，有提到過 mysqldump 備份檔案中記錄的時間戳資料都是以 UTC 時區為基礎的，在篩選恢復單庫或單表時要注意時區差別。後來再次檢視文件，發現 tz-utc、skip-tz-utc 引數與此有關，本篇文章我們一

「Flink」RocksDB介紹以及Flink對RocksDB的支援

RocksDB介紹RocksDB簡介RocksDB是基於C++語言編寫的嵌入式KV儲存引擎，它不是一個分散式的DB，而是一個高效、高效能、單點的資料庫引擎。它是由Facebook基於Google開源的kv儲存LevelDB開發開發。RocksDB使用LSM儲存引

torchtext.vocab.build_vocab_from_iterator的引數介紹以及使用

build_vocab_from_iterator的引數介紹以及使用

相關推薦