python 下的 word2vec 學習筆記

阿新 • • 發佈：2019-01-01

1.ubuntu下安裝gensim

為了保證安裝成功，首先升級一下easy_install工具。

sudo easy_install -U setuptools

之後使用easy_install進行安裝，使用apt-get安裝會遇到編碼出錯，不知為什麼，使用easy_install安裝成功就行了。

sudo easy_install --upgrade gensim

結果在import gensim 中還出現了點小錯誤，缺少了平pattern模組，所以直接pip 安裝。

sudo pip install pattern

2.訓練生成模型

模型的訓練如下：

# ################# 例1 #########################
# import modules & set up logging
import gensim, logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

sentences = [['first', 'sentence'], ['second', 'sentence']]
# train word2vec on the two sentences 

model = gensim.models.Word2Vec(sentences, min_count=1)

在本次的實驗中，我們的資料是儲存在txt檔案中的。每一行對應一個句子（已經分詞，以空格隔開），我們可以直接用LineSentence把txt檔案轉為所需要的格式。

# ################# 例2 #########################
from gensim import Word2Vec
from gensim.Word2Vec import LineSentence

# inp為輸入語料
inp = 'wiki.zh.text.jian.seg.txt' 

# outp1 為輸出模型
outp1 = 'wiki.zh.text.model'
# outp2為原始c版本word2vec的vector格式的模型
outp2 = 'wiki.zh.text.vector'
model = Word2Vec(LineSentence(inp), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count())
model.save(outp1)
model.save_word2vec_format(outp2, binary=False)

LineSentence(inp)：應該是把word2vec訓練模型的磁碟儲存檔案（model在記憶體中總是不踏實）轉換成所需要的格式；對應的格式是參考上面的例1。
size：是每個詞的向量維度；
window：是詞向量訓練時的上下文掃描視窗大小，視窗為5就是考慮前5個詞和後5個詞；
min-count：設定最低頻率，預設是5，如果一個詞語在文件中出現的次數小於5，那麼就會丟棄；
workers：是訓練的程序數（需要更精準的解釋，請指正），預設是當前執行機器的處理器核數。這些引數先記住就可以了。

說明一下輸入語料，輸入的是文字檔案的格式，其中沒一行表示一個文章，而且是經過分詞處理的。詞與詞之間用空格隔開就行了。分詞的工具有很多，我一般用的是結巴分詞（不知道大家以後沒有好的分詞工具推薦）。一般來說，訓練集越大，結果的泛化性越好，對於專業領域的話，最好能使用專業領域的語料來進行訓練。

3.匯入模型

# -*- coding: utf-8 -*-
# <nbformat>3.0</nbformat>

import gensim
# 匯入模型
model = gensim.models.Word2Vec.load("wiki.zh.text.model")

4. 模型使用

可以參照官網上的指導迅速瞭解model的各種功能方法。

4.0 獲取詞向量

        print model[u'汽車']
        type(model[u'汽車'])

# 結果
[  3.74845356e-01   1.86477005e+00   1.28353190e+00   8.04618478e-01 ... ]
numpy.ndarray

4.1 計算一個詞的最近似的詞，倒排序

result = model.most_similar(u'足球')
for each in result:
    print each[0] , each[1]

國際足球 0.556692957878
足球運動 0.530436098576
籃球 0.518306851387
國家足球隊 0.516140639782
足球隊 0.513238489628
足球聯賽 0.500901579857
football 0.500162124634
體育 0.499264538288
足球比賽 0.488131582737
冰球 0.48725092411

4.2 計算兩詞之間的餘弦相似度

word2vec一個很大的亮點：支援詞語的加減運算。（實際中可能只有少數例子比較符合）

>>> model.most_similar(positive=['woman', 'king'], negative=['man'])
[('queen', 0.50882536), ...]

sim1 = model.similarity(u'勇敢', u'戰鬥')
sim2 = model.similarity(u'勇敢', u'膽小')
sim3 = model.similarity(u'高興', u'開心')
sim4 = model.similarity(u'傷心', u'開心')
print sim1 
print sim2
print sim3
print sim4

0.254622852224
0.38974887559
0.423695453969
0.376244588456

4.3 計算兩個集合之間的餘弦似度

當出現某個詞語不在這個訓練集合中的時候，會報錯！！！。

list1 = [u'今天', u'我', u'很', u'開心']
list2 = [u'空氣',u'清新', u'善良', u'開心']
list3 = [u'國家電網', u'再次', u'宣告', u'破產', u'重新']
list_sim1 =  model.n_similarity(list1, list2)
print list_sim1
list_sim2 = model.n_similarity(list1, list3)
print list_sim2

0.541874230659
0.13056320154

4.4 選出集合中不同類的詞語

list = [u'紐約', u'北京', u'上海', u'西安']
print model.doesnt_match(list)
list = [u'紐約', u'北京', u'上海', u'西瓜']
print model.doesnt_match(list)

紐約
西瓜

windows下 word2vec學習筆記

1）安裝gensim是word2vec的python版本，官網地址：gensim官網在Anaconda相應的環境下執行以下命令，即可安裝成功：pip install --upgrade gensimgensim中函式的使用方法，英文版介紹：gensim API2）使用訓練好

python 下的 word2vec 學習筆記

1.ubuntu下安裝gensim 為了保證安裝成功，首先升級一下easy_install工具。 sudo easy_install -U setuptools 之後使用easy_install進行安裝，使用apt-get安裝會遇到編碼出錯，不知為

python requests庫學習筆記（下）

mail 接收緩存 nbsp 0.10 基本 eat agen 維基百科 1.請求異常處理請求異常類型：請求超時處理（timeout）：實現代碼： import requestsfrom requests import exceptions #引

Python下opencv使用筆記（一）（圖像簡單讀取、顯示與儲存）

操作灰度圖清晰 ren from tty ims 圖像 type 寫在之前從去年開始關註python這個軟件，途中間間斷斷看與學過一些關於python的東西。感覺python確實是一個簡單優美、easy上手的腳本編程語言，眾多的第三方庫使得py

Python 3.6學習筆記（一）

示例 ror 功能 put -m 但是對象初始化 absolut 開始之前基礎示例 Python語法基礎，python語法比較簡單，采用縮緊方式。 # print absolute value of a integer a = 100 if a >= 0:

流暢的python和cookbook學習筆記（一）

構造函數推導笛卡爾 expr 列表推導叠代建立笛卡兒 imp 1.數據結構 1.1 內置序列類型　　四種序列類型：　　1.容器序列：list、tuple和collections.deque 　　2.扁平序列：str、bytes、bytearray、memory

流暢的python和cookbook學習筆記（五）

pytho col () 學習 util 學習筆記取出 minute python 1.隨機選擇　　python中生成隨機數使用random模塊。　　1.從序列中隨機挑選元素，使用random.choice() >>> import random

流暢的python和cookbook學習筆記（八）

不可變 pri 列表改變如果 book 影響 color print 1.函數的默認參數必須不可變　　如果函數的默認參數為可變的對象，那麽默認參數在函數外被修改也會影響到函數本身的。 >>> def spam(a, b=None): # b要為不

Python 進階學習筆記

def 進階學習學習 blog 私有屬性屬性和方法 .get line person 把函數作為參數 import math def add(x, y, f): return f(x) + f(y) print add(9, 16, math.sqr

Python(Head First)學習筆記：四

raise b- before hat contents -- supported between data loss 4 持久存儲：文件存儲、讀寫　　數據保存到文件：在學習的過程中出現了一個問題，老是報一個錯：SyntaxError: invalid syntax；

python入門教程學習筆記#2

tab 下載 body 中文穩定出現包含圖1 ret 2.1 python3.6 工具使用運行python 自帶的idle後，輸入python命令，如print(‘hello world‘)，回車後輸出 hello world 其中mac系統會出現一段warn

python入門教程學習筆記#1

ext game 2.7 功能 sublime wxpython 程序免費圖形界面下載地址：https://www.python.org/，版本可選擇3.6或2.7 1.2 編譯環境pycharm 下載地址：https://www.jetbrains.com/p

python自動化測試學習筆記-2-字典、元組、字符串方法

ima weight ict 常用分享圖片 def 刪除列設置統計一、字典 Python字典是另一種可變容器模型，且可存儲任意類型對象，如字符串、數字、元組等其他容器模型。字典的每個鍵值(key=>value)對用冒號(:)分割，每個對之間用逗號(,)分割，

python 3.x 學習筆記9 (面向對象)

表現技術發展計算多種實現類方法 run spa col 對數 1.面向對象面向對象是一種對現實世界理解和抽象的方法，是計算機編程技術發展到一定階段後的產物。 2.類(class): 一個類即是對一類擁有相同屬性的對象的抽象、藍圖、原型。在類中定義了這些

python 3.x 學習筆記13 (socket_ssh and socket_文件傳輸)

粘包問題問題取出 nec imp 傳輸文件 ket color md5 ssh服務端 import socket,os server = socket.socket() server.bind((‘localhost‘,6666)) server.listen()

python 3.x 學習筆記18 (mysql 未完 )

offset targe name屬性表結構不用創建用戶 ant 書籍主鍵 1.數據庫（Database）是按照數據結構來組織、存儲和管理數據的倉庫 2.RDBMS即關系數據庫管理系統(Relational Database Management System)的特

python+selenium個人學習筆記10-調用JavaScript和截圖

end post style keys driver quit fin send IT 調用JavaScript和截圖一、調用JavaScript 1、調整瀏覽器滾動條位置 window.scrollTo(0,500); #左邊距,上邊距 2、用ex

Python第一周學習筆記（2）

學習筆記習題解析 0.打印10以內偶數：位運算 for i in range(10): if not i & 0x01: print(i) 1.給定一個不超過5位的正整數，判斷其有幾位（使用input函數）方法一：正常邏輯處理 a = int(input("Please e

Python第一周學習筆記_待補充（3）

學習筆記Python內置數據結構一、數值型 1.數據類型分類： int：整數 python3的int就是長整型，且沒有大小限制，受限於內存區域的大小int(x) 返回一個整數 float：浮點數有整數部分和小數部分組成。支持十進制和科學計數法表示。只有雙精度型。float(x) 返回一個浮點數 com

Python第二周學習筆記（1）

學習筆記深淺拷貝 ==比較的是數據內容，如果是True意義為內容相同，引用並不同=操作執行後，前後兩個元素的引用地址相同淺拷貝 copy() -> List 返回一個新的列表引用類型只拷貝引用地址深拷貝完全拷貝。包括引用類型 from copy import deepcopy lst2=deep

python 下的 word2vec 學習筆記

1.ubuntu下安裝gensim

2.訓練生成模型

3.匯入模型

4. 模型使用

4.0 獲取詞向量

4.1 計算一個詞的最近似的詞，倒排序

4.2 計算兩詞之間的餘弦相似度

4.3 計算兩個集合之間的餘弦似度

4.4 選出集合中不同類的詞語

相關推薦