gensim訓練word2vec和doc2vec

阿新 • • 發佈：2019-01-08

word2vec和doc2vec是做NLP過程中經常使用的方法。

用向量表示詞彙這種做法由來已久，最早使用的是one-hot向量，即只有一個維度為1，其餘維度都為0，但這種做法有很多缺陷，過多的維度會導致資料處理的困難，而且這種表示方法無法體現詞所在的上下文關係。於是便有了word embedding，將詞彙對映到連續的，稠密的向量空間。doc2vec實現方法和word2vec類似，通過訓練，我們可以推測出一句話的固定維度的向量表達。

本文使用python gensim包，在Django框架基礎上簡單說明word2vec訓練和doc2vec訓練方法。

一.word2vec訓練

將目標語料庫進行分詞

def train_data_build():
    file = r'F:\train_data.txt'
    names = file_name('F:\\data')
    for name in names:
        f = open(name, errors='ignore')
        st = f.read()
        with open(file, 'a+') as f:
            seg_list = jieba.cut(st, cut_all=False)
            f.write(" ".join(seg_list))
            f.write('\n')
        f.close()

對分詞結果進行訓練

def train_data():
    from gensim.models import word2vec
    sentences = word2vec.Text8Corpus('F:\\train_data.txt')
    model = word2vec.Word2Vec(sentences, size=50)
    model.save('word2vec_model')

分詞是一個開銷比較大的工作，最開始訓練的目標是搜狗公佈的新聞語料庫，但用我的手提電腦跑了兩個小時才切完詞，切出了一個十幾個G的文字檔案，再進行訓練電腦立馬卡死。

二.doc2vec訓練

假設已經蒐集好了需要訓練的句子，儲存在model Sentence中

TaggededDocument = gensim.models.doc2vec.TaggedDocument
def train_sentence():
    sens = Sentence.objects.all()
    dic = {}
    for sen in sens:
        dic[sen.name]=sen.sen_id
    keys=dic.keys()
    x_train = []
    for key in keys:
        document = TaggededDocument(key, tags=dic[key])
        x_train.append(document)
    model_dm = Doc2Vec(x_train, min_count=1, window=3, vector_size=100, sample=1e-3, negative=5, workers=4)
    model_dm.train(x_train, total_examples=model_dm.corpus_count, epochs=70)
    model_dm.save('model/model_doc2vec')

gensim訓練word2vec和doc2vec

word2vec和doc2vec是做NLP過程中經常使用的方法。用向量表示詞彙這種做法由來已久，最早使用的是one-hot向量，即只有一個維度為1，其餘維度都為0，但這種做法有很多缺陷，過多的維度會導致資料處理的困難，而且這種表示方法無法體現詞所在的上下文關係。於是便有了wo

Gensim中word2vec和doc2vec的基本用法

一、 word2vec： from gensim.models.word2vec import Word2Vec model = Word2Vec(lines, sg=1, size=100, wi

Gensim進階教程：訓練word2vec與doc2vec模型

本篇部落格是Gensim的進階教程，主要介紹用於詞向量建模的word2vec模型和用於長文字向量建模的doc2vec模型在Gensim中的實現。 Word2vec Word2vec並不是一個模型——它其實是2013年Mikolov開源的一款用於計算詞向量的工具。關於Word2vec更多的原理性的介紹，可以參見

利用中文維基語料和Gensim訓練 Word2Vec 的步驟

word2vec 包括CBOW 和 Skip-gram，它的相關原理網上很多，這裡就不多說了。簡單來說，word2vec是自然語言中的字詞轉為計算機可以理解的稠密向量，是one-hot詞彙表的降維表示，代表每個詞的特徵以及保持住了詞彙間的關係。此處記錄將中文詞彙

word2vec 和 doc2vec 詞向量表示

ron 中心 con 線性如果存在但是標簽 word Word2Vec 詞向量的稠密表達形式（無標簽語料庫訓練） Word2vec中要到兩個重要的模型，CBOW連續詞袋模型和Skip-gram模型。兩個模型都包含三層：輸入層，投影層，輸出層。 1.Skip-Gr

win7 python3.5 採用gensim訓練word2vec，生成wiki.zh.text.model

0，如果您覺得操作麻煩，可以直接直接下載生成好的wiki.zh.text.model模型 https://download.csdn.net/download/luolinll1212/10640451 1，下載中文維基百科 https://

資料轉換Word2Vec和Doc2Vec

Gensim 構建詞袋模型 import jieba #定義停用詞、標點符號 punctuation = ["，","。","：", "；", "？"] #定義語料 content = ["機器學習帶動人工智慧飛速的發展。", "深度學習帶動人工智慧飛速的發展。",

python︱gensim訓練word2vec及相關函式與功能理解

一、gensim介紹 gensim是一款強大的自然語言處理工具，裡面包括N多常見模型：基本的語料處理工具 LSI LDA HDP DTM DIM TF-IDF word2vec、paragraph2vec . 二、訓練模型 1、訓練最簡單的訓練方

深度學習筆記——Word2vec和Doc2vec原理理解並結合程式碼分析

一直在用Word2vec和Doc2vec做Word Embedding和Sentence/Document EMbedding，但是剛開始用的時候對其原理一直是一知半解，只是知道怎麼用而已。古人云：既要知其然，也要知其所以然。所以，結合作者論文，以及網上各位前輩的部落格和

用gensim實現word2vec 和 glove

本篇講講gensim的word2vec模型的使用以及 glove模型用gensim來實現! 首先我們來講word2vec, 剛開始接觸的時候比較迷糊, 我是從tensorflow的神經網路切入的,瞭解了one-hot 知道要將word 轉換成向量才能作為tensor的輸入

使用gensim訓練中文語料word2vec

使用gensim訓練中文語料word2vec 目錄使用gensim訓練中文語料word2vec 1、專案目錄結構 1.1 檔案說明： 1.2 專案下載地址 2、使用jieba中文切詞工具進行切詞 2.1 新增自定義詞典 2.2 新增停

gensim 中文語料訓練 word2vec

1 word2vec api 看下api： gensim.models.word2vec.Word2Vec(sentences=None, size=100, alpha=0.025, window=5, min_count=5, max_vo

word2vec、doc2vec 訓練詞向量引數說明

利用 gensim 模組訓練詞向量用 word2vec 訓練詞向量，主要語句： from gensim.models import Word2Vec from gensim.models.wor

gensim 中tf-idf模型, word2vec 與 doc2vec 簡單使用

轉載：https://blog.csdn.net/chuchus/article/details/777165451.簡介一個python NLP庫. 包含tf-idf模型, word2vec 與 doc2vec 等. 官網地址2.word2vec2.1 類與方法gensim

用gensim學習word2vec

logs rar split() des eric conf com for ipy 　　　　在word2vec原理篇中，我們對word2vec的兩種模型CBOW和Skip-Gram，以及兩種解法Hierarchical Softmax和Negative Sampling做

微軟開源AirSim模擬器，用於訓練無人機和無人車

1=1 music 模擬 dbn ndk lis sym ongl 5% Adobe%E6%94%B6%E8%B4%AD%E7%A7%BB%E5%8A%A8%E5%BA%94%E7%94%A8%E6%A1%86%E6%9E%B6PhoneGap http://music.

spark scala word2vec 和多層分類感知器在情感分析中的實際應用

predict output edi ext oop post format vector spa 轉自：http://www.cnblogs.com/canyangfeixue/p/7227998.html 對於威脅檢測算法使用神經網絡訓練有用！！！TODO待實驗 /

[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec詞向量模型

www. 頻率 cbo homepage 算法文章有一個 tro 概率閱讀目錄 1. 詞向量 2.Distributed representation詞向量表示 3.詞向量模型 4.word2vec算法思想 5.doc2vec算法思

2018省賽賽第一次訓練題解和ac代碼

代碼 red erl .net 題解 work ber ive numbers 第一次就去拉了點思維很神奇的CF題目 #OriginTitle A CodeForces 607A Chain Reaction B CodeForces 385C

ALGO-115_藍橋杯_算法訓練_和為T(枚舉)

正整數 scanf 技術開始 logs n) 分享圖片 sum 不包含問題描述　　從一個大小為n的整數集中選取一些元素，使得它們的和等於給定的值T。每個元素限選一次，不能一個都不選。輸入格式　　第一行一個正整數n，表示整數集內元素的個數。　　第二行n個整數，用

gensim訓練word2vec和doc2vec

一.word2vec訓練

二.doc2vec訓練

相關推薦