【NLP】【五】gensim之Word2Vec

阿新 • • 發佈：2018-11-25

【一】整體流程綜述

gensim底層封裝了Google的Word2Vec的c介面，藉此實現了word2vec。使用gensim介面非常方便，整體流程如下：

1. 資料預處理（分詞後的資料）

2. 資料讀取

3.模型定義與訓練

4.模型儲存與載入

5.模型使用（相似度計算，詞向量獲取）

【二】gensim提供的word2vec主要功能

【三】gensim介面使用示例

1. 使用jieba進行分詞。

文字資料：《人民的名義》的小說原文作為語料

百度雲盤：https://pan.baidu.com/s/1ggA4QwN

# -*- coding:utf-8 -*-
import jieba

def preprocess_in_the_name_of_people():
    with open("in_the_name_of_people.txt",mode='rb') as f:
        doc = f.read()
        doc_cut = jieba.cut(doc)
        result = ' '.join(doc_cut)
        result = result.encode('utf-8')
        with open("in_the_name_of_people_cut.txt",mode='wb') as f2:
            f2.write(result)

2. 使用原始text8.zip進行詞向量訓練

from gensim.models import word2vec
# 引入日誌配置
import logging

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

def train_text8():
    sent = word2vec.Text8Corpus(fname="text8")
    model = word2vec.Word2Vec(sentences=sent)
    model.save("text8.model")

注意。這裡是解壓後的檔案，不是zip包

3. 使用Text8Corpus 介面載入資料

def train_in_the_name_of_people():
    sent = word2vec.Text8Corpus(fname="in_the_name_of_people_cut.txt")
    model = word2vec.Word2Vec(sentences=sent)
    model.save("in_the_name_of_people.model")

4. 使用 LineSentence 介面載入資料

def train_line_sentence():
    with open("in_the_name_of_people_cut.txt", mode='rb') as f:
        # 傳遞open的fd
        sent = word2vec.LineSentence(f)
        model = word2vec.Word2Vec(sentences=sent)
        model.save("line_sentnce.model")

5. 使用 PathLineSentences 介面載入資料

def train_PathLineSentences():
    # 傳遞目錄，遍歷目錄下的所有檔案
    sent = word2vec.PathLineSentences("in_the_name_of_people")
    model = word2vec.Word2Vec(sentences=sent)
    model.save("PathLineSentences.model")

6. 資料載入與訓練分開

def train_left():
    sent = word2vec.Text8Corpus(fname="in_the_name_of_people_cut.txt")
    # 定義模型
    model = word2vec.Word2Vec()
    # 構造詞典
    model.build_vocab(sentences=sent)
    # 模型訓練
    model.train(sentences=sent,total_examples = model.corpus_count,epochs = model.iter)
    model.save("left.model")

7. 模型載入與使用

model = word2vec.Word2Vec.load("text8.model")
print(model.similarity("eat","food"))
print(model.similarity("cat","dog"))
print(model.similarity("man","woman"))
print(model.most_similar("man"))
print(model.wv.most_similar(positive=['woman', 'king'], negative=['man'],topn=1))

model2 = word2vec.Word2Vec.load("in_the_name_of_people.model")
print(model2.most_similar("吃飯"))
print(model2.similarity("省長","省委書記"))

model2 = word2vec.Word2Vec.load("line_sentnce.model")
print(model2.similarity("李達康","市委書記"))


top3 = model2.wv.similar_by_word(word="李達康",topn=3)
print(top3)

model2 = word2vec.Word2Vec.load("PathLineSentences.model")
print(model2.similarity("李達康","書記"))
print(model2.wv.similarity("李達康","書記"))
print(model2.wv.doesnt_match(words=["李達康","高育良","趙立春"]))

model = word2vec.Word2Vec.load("left.model")
print(model.similarity("李達康","書記"))

結果如下：

0.5434648
0.8383337
0.7435267
[('woman', 0.7435266971588135), ('girl', 0.6460582613945007), ('creature', 0.589219868183136), ('person', 0.570125937461853), ('evil', 0.5688984990119934), ('god', 0.5465947389602661), ('boy', 0.544859766960144), ('bride', 0.5401148796081543), ('soul', 0.5365912914276123), ('stranger', 0.531282901763916)]
[('queen', 0.7230167388916016)]
[('只能', 0.9983761310577393), ('招待所', 0.9983713626861572), ('深深', 0.9983667135238647), ('幹警', 0.9983251094818115), ('警察', 0.9983127117156982), ('公安', 0.9983105659484863), ('趙德漢', 0.9982908964157104), ('似乎', 0.9982795715332031), ('一場', 0.9982751607894897), ('才能', 0.9982657432556152)]
0.97394305
0.99191403
[('新', 0.9974302053451538), ('趙立春', 0.9974139928817749), ('談一談', 0.9971731901168823)]
0.91472965
0.91472965
高育良
0.88518995

8. 參考連結

https://github.com/RaRe-Technologies/gensim

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/word2vec.ipynb

【NLP】【五】gensim之Word2Vec

【一】整體流程綜述 gensim底層封裝了Google的Word2Vec的c介面，藉此實現了word2vec。使用gensim介面非常方便，整體流程如下： 1. 資料預處理（分詞後的資料） 2. 資料讀取 3.模型定義與訓練 4.模型儲存與載入 5.模型使用（相似度計算，詞向

【VC++遊戲開發#五】2D篇 —— 遊戲之二：看看你能堅持多少秒

我的郵箱：[email protected] 歡迎大家和我交流程式設計心得前段時間在網上看見了一個小遊戲——看看你能堅持多少秒——考你的敏捷性，我玩了幾次，然後居然超過了18秒事後，我用MFC模擬了該遊戲中方塊"撞牆反彈"的效果——撞牆反彈效果今天呢，我就繼續

【Java併發核心五】Future 和 Callable

預設情況下，執行緒Thread物件不具有返回值的功能，如果在需要取得返回值的情況下會極為不方便。jdk1.5中可以使用Future 和 Callable 來獲取執行緒返回值。 Callable 可以看成與 Runnable 一樣的但是有返回值的介面。 Callable介面的call()方法有返回值，而R

【swupdate文檔五】從可信的來源更新鏡像

更多 ext 取消 file node 嚴重結合 openssl blog 從可信的來源更新鏡像現在越來越重要的是，設備不僅要能安全地進行更新操作，而且要能夠驗證發送的圖像是否來自一個已知的源，並且沒有嵌入惡意軟件。為了實現這個目標，SWUpdate必須驗證傳入的

【Java併發學習五】圖解ThreadLocal

簡單整理下ThreadLocal的原理，以及它需要注意的記憶體洩漏。 ThreadLocal原理 ThreadLocal不多介紹，可看作執行緒內的區域性變數（這個比喻很貼切）。我們平時宣告的區域性變數的範圍一般是方法內的，而ThreadLocal變數的範

【深度相機系列五】腦補了和庫克的對話後，我發現了iPhone X深度相機選擇的祕訣和方法

本文首發於微信公眾號：計算機視覺life 前面的文章分別介紹了三種深度相機的原理：TOF、RGB雙目、結構光。看起來它們都各有利弊，那麼在實際產品研發中如何選擇深度相機呢？為了讀者能夠有個清晰的思路

【資料結構作業五】以鄰接表作儲存結構，廣度遍歷圖的優先搜尋序列

#include <iostream> #define MVNum 100 #define MAXQSIZE 100 using namespace std; typedef char ElemType; typedef int QElemType; typed

【Mybatis學習總結五】實現關聯表查詢----一對多關聯(collection)

實現關聯表查詢----一對多關聯(collection) 一對多需求：即一張表class中又含有多張表(teacher,student)內容。現根據class_id 來獲取對應的班級資訊(包括學生和老師資訊)。 1 、建立表和資料： CREATE TABLE studen

android的常用控制元件總結【安卓入門五】

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。 RadioButton單選

【演算法隨記五】使用FFT變換自動去除影象中嚴重的網紋。

　　這個課題在很久以前就已經有所接觸，不過一直沒有用程式碼去實現過。最近買了一本《機器視覺演算法與應用第二版》書，書中再次提到該方法：使用傅立葉變換進行濾波處理的真正好處是可以通過使用定製的濾波器來消除影象中某些特定頻率，例如這些特定頻率可能代表著影象中重複出現的紋理。　　在網路上很多的PS教程中，也有提

【JAVA習題十五】兩個乒乓球隊進行比賽，各出三人。甲隊為a,b,c三人，乙隊為x,y,z三人。已抽籤決定比賽名單。有人向隊員打聽比賽的名單。a說他不和x比，c說他不和x,z比，請程式設計序找出三隊賽手的名單。

package erase; public class 選人比賽 { public static void main(String[] args) { // TODO Auto-generated method stub char A=0,B=0,C=0,str;

gensim 之 word2vec

gensim庫三大功能: 可擴充套件的統計語義分析語義結構的純文字檢索語義上類似的文件 word2vec是gensim的一個子模組,可以用來實現上面三大功能 word2vec的理解我個人理解: 機器學習中,一切都是基於向量的.自然語

Gensim之Word2Vec使用手冊

1.介紹一句話，Gensim中的Word2Vec類就是用來訓練詞向量的，這個類實現了詞向量訓練的兩種基本模型skip-gram和CBOW，可以通過後面的引數設定來選擇。但是，在Gensim這個模組中訓練詞向量的方法還有很多：gensim.models.doc

【NLP】【六】gensim之doc2vec

【一】總述 doc2vec是指將句子、段落或者文章使用向量來表示，這樣可以方便的計算句子、文章、段落的相似度。【二】使用方法介紹 1. 預料準備 def read_corpus(fname, tokens_only=False): with open(fname, enc

【NLP學習筆記】（三）gensim使用之相似性查詢（Similarity Queries）

相似性查詢（Similarity Queries）本文主要翻譯自https://radimrehurek.com/gensim/tut3.html在之前的教程語料和向量空間和主題和轉換中，我們學會了如何在向量空間模型中表示語料和如何在不同的向量空間之間轉換。實際工作中，這樣做的一個最常見的目的是比較兩個文

【數字圖像處理】五.MFC圖像點運算之灰度線性變化、灰度非線性變化、閾值化和均衡化處理具體解釋

tput rgb 強制轉換 spa ros 例如 read 算法 nload 本文主要講述基於VC++6.0 MFC圖像處理的應用知識，主要結合自己大三所學課程《數字圖像處理》及課件進行解說。主要通過MFC單文檔視圖實現顯示BMP圖片

【C/C++多線程編程之五】pthread線程深入理解

每一個 data- mar weight 可能 water 差異 trac alt 多線程編程之pthread線程深入理解 Pthread是 POSIX threads 的簡稱，是POSIX的線程標準。前幾篇博客已經能給你初

【三十五】thinkphp之視圖

emp div spl 過濾 span this think pub 輸出類型 1.模板定義視圖屬於mvc中的v。一般是html結合php獲取的數據提供給用戶使用。每個模板的文件都是獨立的（文件名與控制器名稱必須一樣）默認的模板文件規則是視圖目錄/[模板主題]控制器

【慕課網實戰】Spark Streaming實時流處理項目實戰筆記五之銘文升級版

環境變量 local server 節點數 replicas conn 配置環境 park 所有銘文一級：單節點單broker的部署及使用 $KAFKA_HOME/config/server.propertiesbroker.id=0listenershost.name

【慕課網實戰】Spark Streaming實時流處理項目實戰筆記十五之銘文升級版

spa for 序列 html art mat div pre paths 銘文一級：[木有筆記] 銘文二級：第12章 Spark Streaming項目實戰行為日誌分析： 1.訪問量的統計 2.網站黏性 3.推薦 Python實時產生數據訪問URL->IP

【NLP】【五】gensim之Word2Vec

相關推薦