Doc2Vec計算句子文件向量、求文字相似度

阿新 • • 發佈：2018-12-21

注：本文主要是記錄自己常用的關於Doc2Vec的簡單程式程式碼。因此不做過多的解釋，直接寫出程式碼，如有問題可以討論交流。

一、doc2vec求文件向量

import sys
import numpy as np
import gensim
from gensim.models.doc2vec import Doc2Vec, LabeledSentence

TaggedDocument = gensim.models.doc2vec.TaggedDocument
#讀取並處理資料
def get_datatset(sentence):
    all_sentence = []    
    for i, sentence in enumerate(sentences):
        all_sentence.append(TaggedDocument(sentence.split(), tag=[i]))
    return all_sentence

#得到資料集corpus的文字向量        
def getVecs(model, corpus, vector_size):
    vecs = [np.array(model.docvecs[z.tags[0]].reshape(1, vector_size)) for z in corpus]
    return np.concatenate(vecs)

#用資料集的文字訓練模型
def train(all_sentence, vector_size, min_count, epoch):
    model = Doc2Vec(vector_size=vector_size, min_count=min_count, epochs=epoch)
    model.build_vocab(all_sentence)
    model.train(all_sentence, total_examples = model.corpus_count, epochs=model.epochs)
    return model

if __name__ == "__main__":
    sentence = open('sentence.txt','r').readlines()
    all_sentence = get_dataset(sentence)
    model = train(all_sentence, vector_size, min_count, epoch)
    sentence_vecs = getVecs(model, all_sentence, vector_size)

二、doc2vec求文字相似度

import sys
import gensim
import sklearn
import numpy as np
from gensim.models.doc2vec import Doc2Vec, LabeledSentence

TaggedDocument = gensim.models.doc2vec.TaggedDocument

#訓練部分同上

def similarity(model):
    test_text = 'xxx xxx xxxxx'.split()
    inferred_vector = model.infer_vector(test_text)
    sims = model.most_similar([inferred_vector], topn=10)
    return sims

if __name__ == '__main__':
    all_sentence = get_dataset(sentence)
    model = train(all_sentence, vector_size, min_count, epoch)
    sims = test()

Doc2Vec計算句子文件向量、求文字相似度

注：本文主要是記錄自己常用的關於Doc2Vec的簡單程式程式碼。因此不做過多的解釋，直接寫出程式碼，如有問題可以討論交流。一、doc2vec求文件向量 import sys import numpy as np import gensim from gensim.mod

網絡基礎、ftp任務（進度條、計算文件大小、斷點續傳、搭建框架示例）

... 請求 pro dal hashlib one win lap ase 一、網絡基礎 1、端口，是什麽？為什麽要有端口？　　端口是為了將同一個電腦上的不同程序進行隔離。　　IP是找電腦；端口是找電腦上的應用程序；　　端口範圍：1 – 6553

NLP︱句子級、詞語級以及句子-詞語之間相似性（相關名稱：文件特徵、詞特徵、詞權重）

每每以為攀得眾山小，可、每每又切實來到起點，大牛們，緩緩腳步來俺筆記葩分享一下吧，please~——————————————————————————— 關於相似性以及文件特徵、詞特徵有太多種說

利用Lucene編寫的文件向量相似度計算程式

import java.io.IOException; import org.apache.lucene.analysis.WhitespaceAnalyzer;import org.apache.lucene.document.Document;import org.apa

Fedora 25文件對比、目錄對比工具——Meld——Linux平臺的對比工具

文件夾 linux 英文軟件 meld 文件對比處理文件的時候，經常遇到兩個非常相似的文件，需要對比、修改。Meld就是專門做這個工作的一款工具。Meld是一個可視的diff和合並工具。Meld是Linux軟件，用戶使用它可以比較2至3個文件並進行編輯，也可以比較2至3個文件夾並同

windows 如何不顯示帶點的文件名、文件夾？

9.png bsp mage 技術分享資源管理器 ima lin 顯示 cnblogs 這些以點開頭的文件夾和文件是為了在 linux 中隱藏的。但是在 windows 中如何不顯示他們？資源管理器： CMD： windows 如何不顯示帶點的文件

【Linux】Linux下統計當前文件夾下的文件個數、目錄個數

article logs 過濾 ref bash 輸出子文件夾 http 輸出信息統計當前文件夾下文件的個數，包括子文件夾裏的 ls -lR|grep "^-"|wc -l 統計文件夾下目錄的個數，包括子文件夾裏的 ls -lR|grep "^d"

遞歸遍歷文件夾、取所有文件。包括子目錄。

文件夾子目錄 tostring 遍歷 foreach ret ans 進行 urn private int count = 0; private int TransformFiles(string path) {

Linux日誌文件utmp、wtmp、lastlog、messages

退出 truct utmp 運行字段 ... 會話都是 cond 1、有關當前登錄用戶的信息記錄在文件utmp中；==who命令　　2、登錄進入和退出紀錄在文件wtmp中；==w命令　　3、最後一次登錄文件可以用lastlog命令察看；　　4、messages====

Python基礎：Python函數、文件操作、遞歸

文件處理 r+ lose 獲取表示 pyw 全部 truncate 模塊函數參數函數參數包括位置參數，關鍵字參數，動態參數（*args, **args）三種。傳參的過程是形式參數的賦值。*args傳入的參數是元組形式，**args傳入的參數是字典形式。示例代碼如下：(這

制作根文件系統、使用NFS燒寫、編譯使用驅動程序（2）

clas bz2 節點 family 好的根文件系統 pan ini 驅動 1.制作根文件系統 1.1 先解壓文件系統，/wok/nfs_root 目錄下是已經構造好的各種文件系統：① fs_mini.tar.bz2 是最小的根文件系統，裏面的設備節點是事先建立好的；②

基於commons-net實現ftp創建文件夾、上傳、下載功能

package use style pen 本地 try cal load 登陸原文：http://www.open-open.com/code/view/1420774470187 package com.demo.ftp; import

Zookeeper--（二）配置文件講解、客戶端使用

臨時結束 java .com per 客戶端使用 .cn 事務客戶端 Java操作zookeeper 創建節點創建子節點 CreateMode.EPHEMETAL臨時節點保證本次回話有效，本次會話結束臨時節點消失，可以實現分布式事務鎖

Linux 查看磁盤分區、文件系統、磁盤的使用情況相關的命令和工具介紹

rfs partition pan 包含 logical cor name blocks 為什麽 Linux 磁盤分區表、文件系統的查看、統計的工具很多，有些工具是多功能的，不僅僅是查看磁盤的分區表，而且也能進行磁盤分區的操作；但在本文，我們只講磁盤分區的查看，以及分區的

python學習筆記（集合的使用、文件操作、字符編碼與轉碼、函數）

函數式編程 close 取值指定編碼 mage 指定位置 lac 空白你在集合集合(set)：把不同的元素組成一起形成集合，是python基本的數據類型。集合元素(set elements):組成集合的成員為什麽需要集合？集合的作用 1 .列表去重復數據

Android 音頻采集——MediaRecord（編碼後錄影文件）、AudioRecord（PCM原始數據）

listen ext 根據任務 nbsp too 影響按鈕 red http://blog.csdn.net/java_android_c/article/details/52619737 Android 音頻簡介常見的音頻編解碼的類型:AAC OPUS MP3

Linux 磁盤分區、文件系統、目錄

ger 系統管理員字節 windows系統 sha 根目錄物理內存內存不足隨著本文出自 “水滴石穿” 博客，請務必保留此出處http://pengyl.blog.51cto.com/5591604/1178952 1、Linux中如何表示硬盤和分區硬盤分區包括主

文件歸檔、壓縮及傳輸

文件歸檔、壓縮及傳輸1.文件歸檔文件歸檔，就是把多個文件變成一個歸檔文件tar c 創建 f 指定歸檔文件名稱 t 顯示歸檔文件中的內容 r

運維學習之Linux系統中的文件傳輸、歸檔、壓縮

linux不同系統之間的文件傳輸1.文件歸檔1.文件歸檔，就是把多個文件變成一個歸檔文件2.tar c ##創建 f ##指定歸檔文件名稱 t ##顯示歸檔文件中的內容 r ##向歸檔文件中添加文件 --get ##取出單個文件 --delete ##刪除單個文件 x ##取出歸檔文件中的所有內容

《從零開始學Swift》學習筆記（Day 57）——Swift編碼規範之凝視規範：文件凝視、文檔凝視、代碼凝視、使用地標凝視

精品 -type mil 顯示 clas ber ansi tex text 原創文章。歡迎轉載。轉載請註明：關東升的博客前面說到Swift凝視的語法有兩種：單行凝視（//）和多行凝視（/*...*/）。這裏來介紹一下他們的使用規範。 1、文件凝視文件凝視就在每個文

Doc2Vec計算句子文件向量、求文字相似度

一、doc2vec求文件向量

二、doc2vec求文字相似度

相關推薦