Python中gensim庫word2vec的使用

阿新 • • 發佈：2019-02-18

Python中gensim庫word2vec的使用：

pip install gensim安裝好庫後，即可匯入使用：

1、訓練模型定義

from gensim.models import Word2Vec  
model = Word2Vec(sentences, sg=1, size=100,  window=5,  min_count=5,  negative=3, sample=0.001, hs=1, workers=4)

引數解釋：

0.sentences是訓練所需預料，可通過以下方式進行載入

sentences=word2vec.Text8Corpus(file)

此處訓練集的格式為英文文字或分好詞的中文文字

1.sg=1是skip-gram演算法，對低頻詞敏感；預設sg=0為CBOW演算法。

2.size是輸出詞向量的維數，值太小會導致詞對映因為衝突而影響結果，值太大則會耗記憶體並使演算法計算變慢，一般值取為100到200之間。

3.window是句子中當前詞與目標詞之間的最大距離，3表示在目標詞前看3-b個詞，後面看b個詞（b在0-3之間隨機）。

4.min_count是對詞進行過濾，頻率小於min-count的單詞則會被忽視，預設值為5。

5.negative和sample可根據訓練結果進行微調，sample表示更高頻率的詞被隨機下采樣到所設定的閾值，預設值為1e-3。

6.hs=1表示層級softmax將會被使用，預設hs=0且negative不為0，則負取樣將會被選擇使用。

7.workers控制訓練的並行，此引數只有在安裝了Cpython後才有效，否則只能使用單核。

詳細引數說明可檢視word2vec原始碼。

2、訓練後的模型儲存與載入

model.save(fname)  
model = Word2Vec.load(fname)

3、模型使用（詞語相似度計算等）

model.most_similar(positive=['woman', 'king'], negative=['man'])  
#輸出[('queen', 0.50882536), ...]  
  
model.doesnt_match("breakfast cereal dinner lunch".split())  
#輸出'cereal'  
  
model.similarity('woman', 'man')  
#輸出0.73723527  
  
model['computer']  # raw numpy vector of a word  
#輸出array([-0.00449447, -0.00310097,  0.02421786, ...], dtype=float32)

Python中gensim庫word2vec的使用

Python中gensim庫word2vec的使用： pip install gensim安裝好庫後，即可匯入使用： 1、訓練模型定義 from gensim.models import Word2Vec model = Word2Vec(sentences, sg

Python 中os庫的使用

os庫提供通用的、基本的作業系統的互動功能 os庫的基本介紹路徑操作：os.path字型檔，處理檔案路徑及資訊程序管理：啟動系統中其他程式環境引數：獲得系統軟硬體資訊等環境引數路徑操作 os.path子庫以path為入口，用於操作和處理檔案路徑 import os.p

檢視python中使用庫的搜尋路徑

命令：import syssys.path Python的自動搜尋路徑順序如下：(1)程式的根目錄(自動)(2)PYTHONPATH環境變數設定的目錄(3)標準庫的目錄(自動)(4)任何能夠找到的.pth檔案的內容(5)第三方擴充套件的site-package目錄(自動)可以通過設定‘環境變數’來新增、刪除

Python中numpy庫入門

Python中numpy Numpy是一個開源的Python科學計算基礎庫以下學習自中國大學MOOC 嵩天《Python資料分析與展示》一.Numpy庫入門 1.Numpy的引入 import numpy as np 使用別名可以縮短在程式中匯入nump

python 中 dlib庫的安裝

安裝 dlib 庫的時候需要用到 CMake 進行本地編譯，而Cmake又是基於Visual Studio執行的，我在裝這個庫的時候，各種找不到教程，就想著分享一下自己的經驗。 32位 python3.5 python3.6 python3.7 64位 python3.6 python3.7 1.先安裝Vi

Python中numpy庫和pandas庫的基本用法

使用前先安裝兩個庫：python3 -m pip install numpy pandas 注意因為我把我自己的python.exe命令成了python3.exe（因為系統裡有多個版本的python存在），所以上面的命令裡用的是python3。 numpy庫： NumP

Python中matplotlib庫的基本用法

matplotlib庫是Python優秀的資料視覺化第三方庫。它提供了一整套和matlab相似的命令API，十分適合互動式地進行製圖。而且也可以方便地將它作為繪圖控制元件，嵌入GUI應用程式中。matplotlib.pyplot是繪製各類視覺化圖形的命令子庫。引入matp

python中numpy庫

numpy是科學計算包（Numeric Python）關於numpy的命令可以使用help檢視,如help(numpy.array) 1.numpy中資料要為相同的資料型別，否則會強制轉換 >>> from numpy import * &g

python中time庫的學習日記

版權宣告本篇內容為自己的學習內容，僅做日記記錄以便日後複習使用。並非本人原創。 time.sleep延時函式 sleep函式可以實現程式的延時，可控制期望時延後執行下一條語句。 import time time.sleep(10) # 延時 10s， t

Python中openCV庫實現卡爾曼濾波案例

1.0 什麼是卡爾曼模型理論推導過於複雜，看個知乎上的解釋吧假設你有兩個感測器，測的是同一個訊號。可是它們每次的讀數都不太一樣，怎麼辦？取平均。再假設你知道其中貴的那個感測器應該準一些，便宜的那個應該差一些。那有比取平均更好的辦法嗎？加權平均。怎麼加權？假

【DRF版本控制】Python中第三方庫rest_framework的用法

首先，我們開發的專案會有多個版本. 其次，我們的專案版本會隨著更新越來越多，我們不可能因出了新版本就不維護舊版本了. 那麼，我們就需要對版本進行控制——DRF版本控制. 原始碼剖析 DRF檢視中的A

python中urllib2庫的基本使用

所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中抓取出來。在Python中有很多庫可以用來抓取網頁，此篇介紹urllib2。在 python3 中，urllib2 被改為urllib.request urlopen 我們先來段程式碼： # urlli

python中random庫的使用，蒙特卡羅方法求圓周率

隨機數種子作用：使我們每次生成的隨機數都一樣。基本隨機函式：擴充套件隨機數函式：圓周率的計算：（門特卡羅方法）使用蒙特卡羅方法計算圓周率：

【DRF認證】Python中第三方庫rest_framework的用法

本文詳細講述了DRF認證元件的原理以及用法. 原始碼剖析上一篇部落格講解DRF版本的時候我們都知道了，在dispatch方法裡執行了initial方法來初始化我們的版本. 而在initial方法裡

【DRF頻率】Python中第三方庫rest_framework的用法

開發平臺的API介面呼叫需要限制其頻率，以節約伺服器資源和避免惡意的頻繁呼叫. DRF就為我們提供了一些頻率限制的方法. DRF中的版本、認證、許可權、頻率元件的原始碼是一個流程，且頻率元件再最後執行.

Python中os庫裡面的popen()方法

python中，os庫裡面的popen()方法，能夠開啟一個管道，獲取輸入到cmd控制檯的資訊例如：在linux命令列輸入下面的命令 ls -ald 20181219* | awk '{print $NF}'|wc -l 這個命令將在控制檯打印出目錄名以“20181219

Python中矩陣庫Numpy基本操作

NumPy是一個關於矩陣運算的庫，熟悉Matlab的都應該清楚，這個庫就是讓python能夠進行矩陣話的操作，而不用去寫迴圈操作。下面對numpy中的操作進行總結。 numpy包含兩種基本的資料型

Python中turtle庫的使用

#Turtle圖形庫 Turtle庫是Python內建的圖形化模組，屬於標準庫之一，位於Python安裝目錄的lib資料夾下，常用函式有以下幾種：畫筆控制函式 penup():擡起畫筆； pendown():落下畫筆； pensize(width

Python中numpy庫unique函式解析

a = np.unique(A)對於一維陣列或者列表，unique函式去除其中重複的元素，並按元素由大到小返回一個新的無元素重複的元組或者列表import numpy as np A = [1, 2, 2, 5,3, 4, 3] a = np.unique(A) B=

資料爬蟲（三）：python中requests庫使用方法詳解

一、什麼是Requests Requests 是⽤Python語⾔編寫，基於urllib，採⽤Apache2 Licensed開源協議的 HTTP 庫。它⽐ urllib 更加⽅便，可以節約我們⼤量的⼯作，完全滿⾜HTTP測試需求。⼀句話——Python實現的簡單易

Python中gensim庫word2vec的使用

相關推薦