【NLP】【六】gensim之doc2vec

阿新 • • 發佈：2018-11-25

【一】總述

doc2vec是指將句子、段落或者文章使用向量來表示，這樣可以方便的計算句子、文章、段落的相似度。

【二】使用方法介紹

1. 預料準備

def read_corpus(fname, tokens_only=False):
    with open(fname, encoding="utf-8") as f:
        for i, line in enumerate(f):
            if tokens_only:
                yield gensim.utils.simple_preprocess(line)
            else:
                # For training data, add tags
                # 利用gensim進行doc2vec時，語料庫是一個TaggedDocument，其包括原始語料（句子、段落、篇章）
                # 和對應的id（如句子id，段落id，篇章id）即語料標識
                yield gensim.models.doc2vec.TaggedDocument(gensim.utils.simple_preprocess(line), [i])

2. 模型訓練

方法一：

def train_doc2vec2():
    train_file = "E:/nlp_data/in_the_name_of_people/in_the_name_of_people.txt"
    train_corpus = list(read_corpus(train_file))
    model = gensim.models.doc2vec.Doc2Vec(documents=train_corpus,vector_size=50, min_count=2, epochs=10)
    model.save("doc2vec2.model")

方法二：

def train_doc2vec():
    train_file = "E:/nlp_data/in_the_name_of_people/in_the_name_of_people.txt"
    train_corpus = list(read_corpus(train_file))
    model = gensim.models.doc2vec.Doc2Vec(vector_size=50, min_count=2, epochs=10)
    model.build_vocab(train_corpus)
    model.train(train_corpus,total_examples=model.corpus_count,epochs = model.epochs)
    model.save("doc2vec.model")

3. 模型使用

3.1 推測句子、段落或者文章的向量表示

model = doc2vec.Doc2Vec.load("doc2vec.model")
# 基於已有模型，來推測新文件或者句子或者段落的向量
print(model.infer_vector(["李達康是市委書記"]))

3.2 求解句子或者段落或者文章相似的內容

model = doc2vec.Doc2Vec.load("doc2vec2.model")
inferred_vector = model.infer_vector(["沙瑞金是省委書記"])
# 求解句子或者段落或者文章的相似性
sims = model.docvecs.most_similar([inferred_vector], topn=3)

train_file = "E:/nlp_data/in_the_name_of_people/in_the_name_of_people.txt"
train_corpus = list(read_corpus(train_file))
for docid, sim in sims:
    print(docid)
    print(sim)
    print(train_corpus[docid])

結果如下：

1295
0.4263337254524231
TaggedDocument(['這一來', '陳清泉就撞到槍口上了', '他想保也保不住', '其實他還是想保的', '這位法院副院長人不錯', '他沒必要得罪', '然而', '李達康要得罪', '他有啥辦法', '該查就得查了', '他不查', '李達康既可以換個人來查', '也可以查一查他', '政治鬥爭就是這麼殘酷無情', '它不以你個人的感情好惡為轉移', '於是', '他代表紀委宣佈了違紀事實', '最後做結論說', '有的被群眾舉報', '有的在網上炒得沸反盈天', '必須嚴肅處理', '情況就是這樣'], [1295])
1692
0.4215260446071625
TaggedDocument(['孫連城', '地站了起來', '大聲說', '李達康', '我辭職'], [1692])
281
0.41098830103874207
TaggedDocument(['估計有人通風報信了'], [281])

【三】總結

使用gensim的doc2vec進行句子、段落、文章的向量表示時，不需要進行分詞。

【NLP】【六】gensim之doc2vec

【一】總述 doc2vec是指將句子、段落或者文章使用向量來表示，這樣可以方便的計算句子、文章、段落的相似度。【二】使用方法介紹 1. 預料準備 def read_corpus(fname, tokens_only=False): with open(fname, enc

【Unity3D遊戲開發學習筆記】（六）上帝之手—GameObject的操作

在Unity中，所有實體都屬於遊戲物件（GameObject），比如外部匯入到場景中的模型，Unity自帶的立方體等等，而要將這些GameOject進行管理，互動等操作，則需要用到指令碼來實現，上一節我們已經學習瞭如何建立一個指令碼並繫結到一個物體上，現在我們將

【基礎知識十六】強化學習

動態 sof col -s 範例如何差分 ash 抽象一、任務與獎賞我們執行某個操作a時，僅能得到一個當前的反饋r（可以假設服從某種分布），這個過程抽象出來就是“強化學習”。強化學習任務通常用馬爾可夫決策過程MDP來描述：強化學

【演算法隨記六】一段Matlab版本的Total Variation(TV)去噪演算法的C語言翻譯。

　　最近看到一篇文章講IMAGE DECOMPOSITION，裡面提到了將影象分為Texture layer和Structure layer，測試了很多方法，對於那些具有非常強烈紋理的影象，總覺得用TV去燥的方法分離的結果都比其他的方法都要好（比如導向、雙邊），比如下圖：

NLP計算文件相似度之doc2vec

import gensim outp1 = 'D:\python_noweightpathway\TIA\docmodel' file = open(u'D:\python_noweightpathway\TIA\TIAxmmc.txt', encoding=

【NLP】【五】gensim之Word2Vec

【一】整體流程綜述 gensim底層封裝了Google的Word2Vec的c介面，藉此實現了word2vec。使用gensim介面非常方便，整體流程如下： 1. 資料預處理（分詞後的資料） 2. 資料讀取 3.模型定義與訓練 4.模型儲存與載入 5.模型使用（相似度計算，詞向

【NLP學習筆記】（三）gensim使用之相似性查詢（Similarity Queries）

相似性查詢（Similarity Queries）本文主要翻譯自https://radimrehurek.com/gensim/tut3.html在之前的教程語料和向量空間和主題和轉換中，我們學會了如何在向量空間模型中表示語料和如何在不同的向量空間之間轉換。實際工作中，這樣做的一個最常見的目的是比較兩個文

【滲透課程】第六篇-上傳漏洞之解析漏洞

文件的配置文件密碼 3.1 安裝目錄 ppa xxx 表單圖片上傳漏洞,我們為什麽要上傳？因為我們說過。在網站服務器上肯定有一個Web容器,它裏面裝的就是Web應用程序。某些腳本具有一定的執行和修改權限。這些權限可以說是服務器給客戶端訪問時提供的服務的同時提供的

【六】MongoDB管理之副本集

bottom reference mil 沒有 options 過程新版會有滿足一、復制介紹所謂的復制就是在多個主機之間同步數據的過程。 1、數據冗余及可用性復制技術提供數據冗余及可用性，在不同的數據庫服務器上使用多個數據副本，復制技術防止單個數據庫服務器出現數

SaltStack之遠程執行【目標選擇匹配】（六）

二次配置 ast error entos argument 重啟需要是我練習內容 Salt遠程執行中目標選擇常用的模式 1.通配符匹配 2.正則表達式匹配 3.List支持 4.Grains匹配 5.IP地址匹配 6.混合匹配 7.Node grou

進擊的Python【第十六章】：Web前端基礎之jQuery

name cat 隱藏 function wid get val 綁定 des 進擊的Python【第十六章】：Web前端基礎之jQuery 一、什麽是 jQuery ？ jQuery是一個JavaScript函數庫。 jQuery是一個輕量級的"寫的少，做的多"的Java

【慕課網實戰】Spark Streaming實時流處理項目實戰筆記十六之銘文升級版

.so zook orm 3.1 date nta highlight org 結果銘文一級： linux crontab 網站：http://tool.lu/crontab 每一分鐘執行一次的crontab表達式： */1 * * * * crontab -e */1

ASP.NET CORE系列【六】Entity Framework Core 之數據庫遷移

snapshot 文章 src AD data 上下 ont pre 發生前言最近打算用.NET Core寫一份簡單的後臺系統,來練練手然後又用到了Entity Framework Core 發現園子裏有些文章講得不是那麽細節，對於新手小白來說，可能會有點懵。特意

【藍橋杯】第六屆國賽C語言B組 1.積分之迷（水題）

水題 urn class %d names 風鈴需要藍橋 std 小明開了個網上商店，賣風鈴。共有3個品牌：A，B，C。為了促銷，每件商品都會返固定的積分。小明開業第一天收到了三筆訂單：第一筆：3個A + 7個B + 1個C，共返積分：315第二筆：4個A + 10個

Kong 系列【六】新增外掛---ip-restriction之黑白名單

寫在前邊本地postMan請求http://192.168.130.131:8000/test-route，可以正常訪問，本地IP：192.168.130.1 同樣在虛擬機器環境192.168.130.129也可以正常訪問。新增ip-restriction外掛將129

【NLP】NMT之RNN結構

RNN一般有三種結構：vanilla RNN，LSTM，GRU。 1. vanilla RNN 最簡單的RNN： 2. GRU 使用兩個門，reset使用多少過去cell的資訊，update門控制該資訊有多少用於更新當前cell，在GRU中a即為 c。 3. LSTM

【NLP】NMT之BLEU

BLEU score 用來評價一個翻譯系統的好壞。計算公式如下： N指使用N-gram計算Pn。BLEU越高越好。 1. 計算Pn Pn = (候選譯文與參考譯文相同的N-gram數目) / (候選譯文中所有N-gram的數目) wn為權重，可以取

Python小白學習之路（十六）—【內建函式一】

將68個內建函式按照其功能分為了10類，分別是：數學運算（7個） abs()　　 divmod() 　　max() 　　 min() 　　pow() 　　round() 　　 sum() 型別

【NLP】【三】jieba原始碼分析之關鍵字提取（TF-IDF/TextRank）

【一】綜述利用jieba進行關鍵字提取時，有兩種介面。一個基於TF-IDF演算法，一個基於TextRank演算法。TF-IDF演算法，完全基於詞頻統計來計算詞的權重，然後排序，在返回TopK個詞作為關鍵字。TextRank相對於TF-IDF，基本思路一致，也是基於統計的思想，只不過其計算詞的權

【NLP】【二】jieba原始碼分析之分詞

【一】詞典載入利用jieba進行分詞時，jieba會自動載入詞典，這裡jieba使用python中的字典資料結構進行字典資料的儲存，其中key為word，value為frequency即詞頻。 1. jieba中的詞典如下： jieba/dict.txt X光 3 n X光線 3

【NLP】【六】gensim之doc2vec

相關推薦