gensim 中tf-idf模型, word2vec 與 doc2vec 簡單使用

阿新 • • 發佈：2019-02-09

轉載：https://blog.csdn.net/chuchus/article/details/77716545

1.簡介

一個python NLP庫. 包含tf-idf模型, word2vec 與 doc2vec 等.
官網地址

2.word2vec

2.1 類與方法

gensim.models.word2vec.Word2Vec(utils.SaveLoad)
類. 用於訓練, 使用, 評估 word2vec 模型.
__init__(self, sentences=None, size=100, alpha=0.025, window=5, min_count=5, ...)
sentences: 一個list, 元素為sentence. sentence也是一個list, 格式為[word1, word2, …, word_n].
size

: the dimensionality of the feature vectors.
window: the maximum distance between the current and predicted word within a sentence.
alpha: the initial learning rate.
seed: for the random number generator
min_count: ignore all words with total frequency lower than this.
save(self, *args, **kwargs)
持久化模型, 如 model.save('/tmp/mymodel')

.
@classmethod load(cls, *args, **kwargs)
將持久化的模型反序列化回來. 如new_model = gensim.models.Word2Vec.load('/tmp/mymodel').
model[word]
如, model[‘computer’], 返回的是該單詞的向量, 它是NumPy的vector.
model.wv.similar_by_word(self, word, topn=10,…)
查詢一個詞的k-nearest neighbor. 計算的是餘弦相似度.

2.2一些例子

model.wv.most_similar_cosmul(positive=['woman' 
, 'king'], negative=['man'])
# 得到('queen', 0.71382287), ...]

model.wv.doesnt_match("breakfast cereal dinner lunch".split())
# 'cereal'

model.wv.similarity('woman', 'man')
# 0.73723527

3.doc2vec

在word2vec中, 語料庫的詞典都是十幾萬級別的, 所以來了新句子, 裡面的 word 也很少碰到未登入的.
而在doc2vec中, 來了一篇新文章, 它就是未登入的, gensim 提供了
gensim.models.doc2vec.Doc2Vec#infer_vector(self, doc_words, alpha=0.1, min_alpha=0.0001, steps=5)
函式, 產出模型後, 用於預測新文件的 vector representation.

常用類與方法

gensim.similarities.docsim.SparseMatrixSimilarity(interfaces.SimilarityABC)
類, 用餘弦相似度來度量.

4.tf_idf model

import logging
#logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

from gensim import corpora, models, similarities

# First, create a small corpus of 9 documents and 12 features
# a list of list of tuples
# see: https://radimrehurek.com/gensim/tut1.html
corpus = [[(0, 1.0), (1, 1.0), (2, 1.0)],
           [(2, 1.0), (3, 1.0), (4, 1.0), (5, 1.0), (6, 1.0), (8, 1.0)],
           [(1, 1.0), (3, 1.0), (4, 1.0), (7, 1.0)],
           [(0, 1.0), (4, 2.0), (7, 1.0)],
           [(3, 1.0), (5, 1.0), (6, 1.0)],
           [(9, 1.0)],
           [(9, 1.0), (10, 1.0)],
           [(9, 1.0), (10, 1.0), (11, 1.0)],
           [(8, 1.0), (10, 1.0), (11, 1.0)]]

tfidf = models.TfidfModel(corpus)

vec = [(0, 1), (4, 1)]
print(tfidf[vec])
# shape=9*12
index = similarities.SparseMatrixSimilarity(tfidf[corpus], num_features=12)
sims = index[tfidf[vec]]
print(list(enumerate(sims)))
"""
[(0, 0.8075244024440723), (4, 0.5898341626740045)]

# Document number zero (the first document) has a similarity score of 0.466=46.6%, the second document has a similarity score of 19.1% etc.
[(0, 0.4662244), (1, 0.19139354), (2, 0.24600551), (3, 0.82094586), (4, 0.0), (5, 0.0), (6, 0.0), (7, 0.0), (8, 0.0)]
"""

gensim 中tf-idf模型, word2vec 與 doc2vec 簡單使用

轉載：https://blog.csdn.net/chuchus/article/details/777165451.簡介一個python NLP庫. 包含tf-idf模型, word2vec 與 doc2vec 等. 官網地址2.word2vec2.1 類與方法gensim

Gensim進階教程：訓練word2vec與doc2vec模型

本篇部落格是Gensim的進階教程，主要介紹用於詞向量建模的word2vec模型和用於長文字向量建模的doc2vec模型在Gensim中的實現。 Word2vec Word2vec並不是一個模型——它其實是2013年Mikolov開源的一款用於計算詞向量的工具。關於Word2vec更多的原理性的介紹，可以參見

[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec詞向量模型

www. 頻率 cbo homepage 算法文章有一個 tro 概率閱讀目錄 1. 詞向量 2.Distributed representation詞向量表示 3.詞向量模型 4.word2vec算法思想 5.doc2vec算法思

自然語言處理之Bag-of-words，TF-IDF模型

轉自：https://blog.csdn.net/m0_37744293/article/details/78881231 Bag-of-words，TF-IDF模型 Bag-of-words model （BoW model）忽略文字的語法和語序，用一組無序的單詞（words）來表達一段文

使用gensim中的lda模型訓練主題分佈

一直在尋找各種大神的LDA演算法，不過除錯一直沒有成功，最後還是選擇使用gensim的LDA工具來訓練自己的文字資料吧。 #coding=utf-8 import codecs from gensi

文字分析--關鍵詞獲取（jieba分詞器，TF-IDF模型）

關鍵詞獲取可以通過兩種方式來獲取： 1、在使用jieba分詞對文字進行處理之後，可以通過統計詞頻來獲取關鍵詞：jieba.analyse.extract_tags(news, to

TF-IDF模型及其演算法

TF-IDF（term frequency–inverse document frequency）是一種用於資訊檢索與資訊探勘的常用加權技術。TF-IDF是一種統計方法，用以評估一字詞對於一個檔案集或一個語料庫中的其中一份檔案的重要程度。字詞的重要性隨著它在檔案中出現的次數成正比增加，但同時會隨著

怎樣把報表放到網頁中顯示（Web頁面與報表簡單集成樣例）

nal 嵌入自己 rim 框架 ram art ner prim 1.問題描寫敘述如今用戶開發的系統基本上趨向於BS架構的瀏覽器/server模式。這些系統可能由不同的語言開發。如HTML、ASP、JSP、PHP等。因此須要將制作好的報表嵌入到這些頁面中。 Fine

Gensim中word2vec和doc2vec的基本用法

一、 word2vec： from gensim.models.word2vec import Word2Vec model = Word2Vec(lines, sg=1, size=100, wi

文字表示模型中涉及的知識點整理(詞袋模型，TF-IDF，主題模型，詞嵌入模型)

1.詞袋模型（Bags of Words）詞袋模型是最基礎的文字表示模型，就是把每一篇文章看成一袋子單詞，並忽略每個此出現的順序。具體就是將整段文字以詞為單位分開，每篇文章可以表示成一個長向量，向量中的每一維代表一個單詞，而該維對應的權重代表這個詞在文章中的重要程度。

VSM模型與TF-IDF權重

VSM模型向量空間模型(VSM，Vector Space Model)由Gerard Salton和McGill等在1969年提出。該模型將文字內容轉換為易於數學處理的向量形式，並表示為多維空間中

TF-IDF與余弦相似性的應用（三）：自動摘要

下一步 dip target 似的 abs tps .net ebo ace 轉：http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html 有時候，很簡單的數學方法，就可以完成很復雜的任務。這個

word2vec模型cbow與skip-gram的比較

老師使用調整窗口詞向量 word 算法實現 ont 原理 cbow和skip-gram都是在word2vec中用於將文本進行向量表示的實現方法，具體的算法實現細節可以去看word2vec的原理介紹文章。我們這裏大體講下兩者的區別，尤其註意在使用當中的不同特點。在c

TF-IDF入門與例項

我們對文件分析的時候，通常需要提取關鍵詞，中文分詞可以使用jieba分詞，英文通過空格和特殊字元分割即可。那麼分割之後是不是出現頻率越高這些詞就能越好代表這篇文章描述的內容呢？答案是否定的，比如英文中常見的詞a、an等，中文中常見的“的”、“你”等等。有一些詞可以通過過濾stop Word詞表去掉，

python opencv3.x中支援向量機（svm）模型儲存與載入問題

親自驗證，可以解決svm的模型載入問題: import numpy as np from sklearn import datasets &nb

信息熵與TF-IDF 學習筆記

art left 互信 org 信息論調整機器單獨 ray 自信息量評價一個事件發生所包含的信息量大小，設獨立事件x、y發生概率為p(x)、p(y)，包含信息量為I(x)、I(y) 預設信息量的大小一定大於0，並且事件發生的概率越大，所包含的信息量越小，可知 \

轉搜尋引擎的文件相關性計算和檢索模型 BM25/TF IDF

信任度網路模型此外還有基於統計的機器學習排序演算法。這裡主要介紹布林模型，向量空間模型，概率模型，語言模型，機器學習排序演算法3. 布林模型布林模型：是最簡單的資訊檢索模型，是基於集合理論和布林代數的一種簡單的檢索模型。基本思想：文件和使用者查詢由其包含的單詞集合來表示，兩

我與語言處理 - [Today is TF-IDF] - [詞頻-逆檔案頻率]

下看一個簡單的解釋。最通俗易懂： TF-IDF 要解決的問題，如何衡量一個關鍵字在文章中的重要性總起　　TF-IDF，理解起來相當簡單，他實際上就是TF*IDF，兩個計算值的乘積，用來衡量一個詞庫中的詞對每一篇文件的重要程度。下面我們分開來講這兩個值，TF和IDF。

gensim中word2vec的使用

一、遇見的坑： 1、Word2Vec和word2vec不是一個東西，word2vec包含了所有的方法，Word2Vec是word2vec檔案下的一個類，用於模型相關的方法 2、word2vec匯入資料集只能用word2vec.Text8Corpus(path)的方式去匯入 3、儲存、載入

ElasticSearch教程——lucene的相關度評分TF&IDF演算法以及向量空間模型演算法

1、boolean model 類似and這種邏輯操作符，先過濾出包含指定term的doc query "hello world" --> 過濾 --> hello / world / hello & world bool --> must/mu

gensim 中tf-idf模型, word2vec 與 doc2vec 簡單使用

轉載：https://blog.csdn.net/chuchus/article/details/77716545

1.簡介

2.word2vec

2.1 類與方法

2.2一些例子

3.doc2vec

常用類與方法

4.tf_idf model

相關推薦