極簡使用︱Gemsim-FastText 詞向量訓練與使用

阿新 • • 發佈：2018-11-12

glove/word2vec/fasttext目前詞向量比較通用的三種方式，之前三款詞向量的原始訓練過程還是挺繁瑣的，這邊筆者列舉一下再自己使用過程中快速訓練的方式。
其中，word2vec可見：python︱gensim訓練word2vec及相關函式與功能理解
glove可見：極簡使用︱Glove-python詞向量訓練與使用

因為是在gensim之中的，需要安裝fasttext，可見：
https://github.com/facebookresearch/fastText/tree/master/python

$ git clone https://github.com/facebookresearch/fastText.git
$ cd fastText
$ pip install .

3.1 獲得詞向量
3.2 詞向量詞典
3.3 與word2vec 相同的求相似性

4 fasttext 與 word2vec的對比
參考資源

2 、fasttext訓練

2.1 訓練主函式

from gensim.models import FastText
sentences = [["你", "是", "誰"], ["我", "是", "中國人"]]

model = FastText(sentences,  size=4, window=3, min_count=1, iter=10,min_n = 3 , max_n = 6,word_ngrams = 0)
model['你']  # 詞向量獲得的方式
model.wv['你'] # 詞向量獲得的方式

其中FastText主函式為：


class gensim.models.fasttext.FastText(sentences=None, corpus_file=None, sg=0, hs=0, size=100, alpha=0.025, window=5, min_count=5, max_vocab_size=None, word_ngrams=1, sample=0.001, seed=1, workers=3, min_alpha=0.0001, negative=5, ns_exponent=0.75, cbow_mean=1, hashfxn=<built-in function hash>, iter=5, null_word=0, min_n=3, max_n=6, sorted_vocab=1, bucket=2000000, trim_rule=None, batch_words=10000, callbacks=())

幾個引數的含義為：

常規引數：
- model: Training architecture. Allowed values: cbow, skipgram (Default cbow)
- size: Size of embeddings to be learnt (Default 100)
- alpha: Initial learning rate (Default 0.025)
- window: Context window size (Default 5)
- min_count: Ignore words with number of occurrences below this (Default 5)
- loss: Training objective. Allowed values: ns, hs, softmax (Default ns)
- sample: Threshold for downsampling higher-frequency words (Default 0.001)
- negative: Number of negative words to sample, for ns (Default 5)
- iter: Number of epochs (Default 5)
- sorted_vocab: Sort vocab by descending frequency (Default 1)
- threads: Number of threads to use (Default 12)
fasttext附加引數
- min_n: min length of char ngrams (Default 3)
- max_n: max length of char ngrams (Default 6)
- bucket: number of buckets used for hashing ngrams (Default 2000000)
額外引數：
- word_ngrams ({1,0}, optional)
  - If 1, uses enriches word vectors with subword(n-grams) information. If 0, this is equivalent to Word2Vec.

2.2 模型的儲存與載入

# 模型儲存與載入
model.save(fname)
model = FastText.load(fname)

2.3 線上更新語料庫

# 線上更新訓練 fasttext
from gensim.models import FastText
sentences_1 = [["cat", "say", "meow"], ["dog", "say", "woof"]]
sentences_2 = [["dude", "say", "wazzup!"]]

model = FastText(min_count=1)
model.build_vocab(sentences_1)
model.train(sentences_1, total_examples=model.corpus_count, epochs=model.iter)

model.build_vocab(sentences_2, update=True)
model.train(sentences_2, total_examples=model.corpus_count, epochs=model.iter)

通過build_vocab來實現

2.4 c++ 版本的fasttext訓練

# 使用c++ 版本的fasttext
from gensim.models.wrappers.fasttext import FastText as FT_wrapper

# Set FastText home to the path to the FastText executable
ft_home = '/home/chinmaya/GSOC/Gensim/fastText/fasttext'

# train the model
model_wrapper = FT_wrapper.train(ft_home, lee_train_file)

print(model_wrapper)

3 fasttext使用

3.1 獲得詞向量

model['你']  # 詞向量獲得的方式
model.wv['你'] # 詞向量獲得的方式

兩種方式獲得詞向量

3.2 詞向量詞典

existent_word = '你'
existent_word in model.wv.vocab
>>> True

3.3 與word2vec 相同的求相似性

其中包括：

model.wv.most_similar(positive=['你', '是'], negative=['中國人'])
model.wv.most_similar_cosmul(positive=['你', '是'], negative=['中國人'])

類比關係，其中most_similar_cosmul使用乘法組合來查詢最接近的詞（參考url）

model.wv.doesnt_match("你 真的 是".split())  # 找到不匹配的

找出不適合的詞

model.wv.similarity('你', '是')  # 求相似
model.n_similarity(['cat', 'say'], ['dog', 'say'])  # 多個詞條求相似

similarity求兩個詞之間的相似性；n_similarity為求多個詞之間的相似性

# !pip3 install pyemd 
model.wmdistance(['cat', 'say'], ['dog', 'say']) # 求詞條之間的WMD距離

依據詞向量求詞條之間的WMD距離

4 fasttext 與 word2vec的對比

在案例：Comparison of FastText and Word2Vec之中有官方給出的對比gensim之中，fasttext與word2vec的效能、語義關係比對。
參考博文：https://rare-technologies.com/fasttext-and-gensim-word-embeddings/
在這裡插入圖片描述

得出的結論：

具有n-gram的FastText模型在語法任務上的表現明顯更好，因為句法問題與單詞的形態有關；
Gensim word2vec和沒有n-gram的fastText模型在語義任務上的效果稍好一些，可能是因為語義問題中的單詞是獨立的單詞而且與它們的char-gram無關；
一般來說，隨著語料庫大小的增加，模型的效能似乎越來越接近。但是，這可能是由於模型的維度大小保持恆定在100，而大型語料庫較大維度的模型大小可能會導致更高的效能提升。
隨著語料庫大小的增加，所有模型的語義準確性顯著增加。
然而，由於n-gram FastText模型的語料庫大小的增加，句法準確度的提高較低（相對和絕對術語）。這可能表明，在較大的語料庫大小的情況下，通過合併形態學資訊獲得的優勢可能不那麼顯著（原始論文中使用的語料庫似乎也表明了這一點）
最原始的fastText 由c++寫的，而gensim是由py寫的，執行效能還是c++要快一些

參考資源

1、facebookresearch/fastText
2、案例：Using FastText via Gensim
3、案例：Comparison of FastText and Word2Vec
4、官方教程：models.fasttext – FastText model
5、FastText and Gensim word embeddings

極簡使用︱Gemsim-FastText 詞向量訓練與使用

glove/word2vec/fasttext目前詞向量比較通用的三種方式，之前三款詞向量的原始訓練過程還是挺繁瑣的，這邊筆者列舉一下再自己使用過程中快速訓練的方式。其中，word2vec可見：python︱gensim訓練word2vec及相關函式與功能理解 glove可見：極簡使用

極簡使用︱Gemsim-FastText 詞向量訓練以及OOV（out-of-word）問題有效解決

glove/word2vec/fasttext目前詞向量比較通用的三種方式，之前三款詞向量的原始訓練過程還是挺繁瑣的，這邊筆者列舉一下再自己使用過程中快速訓練的方式。其中，word2vec可見：python︱gensim訓練word2vec及相關函式與功能理解

極簡使用︱Glove-python詞向量訓練與使用

glove/word2vec/fasttext目前詞向量比較通用的三種方式，其中word2vec來看，在gensim已經可以極快使用（可見：python︱gensim訓練word2vec及相關函式與功能理解）官方glove教程比較囉嗦，可能還得設定一些引數表，操作不是特別方便。筆

python下word2vec詞向量訓練與載入方法

專案中要對短文字進行相似度估計，word2vec是一個很火的工具。本文就word2vec的訓練以及載入進行了總結。word2vec的原理就不描述了，word2vec詞向量工具是由google開發的，輸入為文字文件，輸出為基於這個文字文件的語料庫訓練得到的詞向量模型。通過該模型

FastText詞向量表示

論文《Enriching Word Vectors with Subword Information》介紹 FastText的作者也就是word2vec的作者，所以兩者是一脈相承的。目前的詞向量模型都是把每一個單詞作為單獨的向量，並沒有考慮詞語的內部結構，那麼F

比賽必備︱省力搞定三款詞向量訓練 + OOV詞向量問題的可性方案

本篇為資源彙總，一些NLP的比賽在抽取文字特徵的時候會使用非常多的方式。傳統的有：TFIDF/LDA/LSI等偏深度的有：word2vec/glove/fasttext等還有一些預訓練方式：elmo / bert 1 之前的幾款詞向量介紹與訓練

word2vec詞向量訓練及gensim的使用

一、什麼是詞向量詞向量最初是用one-hot represention表徵的，也就是向量中每一個元素都關聯著詞庫中的一個單詞，指定詞的向量表示為：其在向量中對應的元素設定為1，其他的元素設定為0。採

python中使用Word2Vec多核技術進行新聞詞向量訓練

from sklearn.datasets import fetch_20newsgroups news = fetch_20newsgroups(subset='all') X,y=news.data,news.target from bs4 import Beaut

Windows下使用Word2vec繼續詞向量訓練

2. 下載word2vec，下載地址為：http://word2vec.googlecode.com/svn/trunk/ 將下載的所有檔案放入word2vec資料夾下。補充： word2vec的原版程式碼是google code上的，也有改寫的其他兩個版本： (1) c++11版本：（jdeng/wo

word2vec詞向量訓練及中文文字相似度計算

本文是講述如何使用word2vec的基礎教程，文章比較基礎，希望對你有所幫助！官網C語言下載地址：http://word2vec.googlecode.com/svn/trunk/官網Python下載地址：http://radimrehurek.com/gensim/mod

使用Keras和預訓練的詞向量訓練新聞文字分類模型

from __future__ import print_function import os import sys import numpy as np from keras.preprocessing.text import Tokenizer from keras.p

Python Word2Vec使用訓練好的模型生成詞向量

https 一起失效 com mode 密碼 pytho ID list # 文本文件必須是utf-8無bom格式 from gensim.models.deprecated.word2vec import Word2Vec model = Word2Vec.lo

訓練詞向量

1 def word_vector_gener(): 2 """ 3 幾種不同的方法來生成詞向量 4 :return: 5 """ 6 from gensim.models import Word2Vec 7 from gensim.test

NER -- 詞向量與標註預處理階段

0、前言本文旨在對自己命名實體識別中詞向量與標註預處理階段的總結。此處假設給定大量文字，以及部分對應的標註（此處使用的是IOB標註方案），但是文字與標註是分開儲存的。在我們進行NER的預測任務之前，我們需要做以下工作：（1）對每個文字進行分詞（當然這裡分詞也要注意用什麼標準

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第三課詞向量（2）

一、word2vec 1、回顧：skip-grams word2vec的主要步驟是遍歷整個語料庫，利用每個視窗的中心詞來預測上下文的單詞，然後對每個這樣的視窗利用SGD來進行引數的更新。對於每一個視窗而言，我們只有2m+1個單詞（其中m表示視窗的半徑），因此我們計算出來的梯度向量是

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第二課詞向量（word vector）

課程概要 1、單詞含義 2、word2vec介紹 3、word2vec目標函式的梯度推導 4、目標函式優化：梯度下降法一、單詞含義含義（meaning）指的是由單詞表達的觀點。我們一般使用單詞含義的方法是，使用像WordNet那樣的分類詞典，給每個單詞對應的上下義關係以及同義

Elmo詞向量中文訓練過程雜記

1 elmo是什麼？ ELMo的特點： 2 Elmo訓練有哪些好專案？有訓練過程的專案預訓練模型：

word2vec訓練好的詞向量

雖然早就對NLP有一丟丟接觸，但是最近真正對中文文字進行處理才深深感覺到自然語言處理的難度，主要是機器與人還是有很大差異的，畢竟人和人之間都是有差異的，要不然不會講最難研究的人嘞 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~不華麗的分割線~~~~~~~~~~

Spark Mlib(三)用spark訓練詞向量

自然語言處理中，在詞的表示上，向量的方式無疑是最流行的一種。它可以作為神經網路的輸入，也可直接用來計算。比如計算兩個詞的相似度時，就可以用這兩個詞向量的距離來衡量。詞向量的訓練需要大規模的語料，從而帶來的是比較長的訓練時間。spark框架基於記憶體計算，有忘加快詞向量的訓練速度。以下是sp

基於騰訊AI Lab詞向量進行未知詞、短語向量補齊與域內相似詞搜尋

（~免費廣告位一則~） AI Lab開源大規模高質量中文詞向量資料，800萬中文詞隨你用，質量非常高，就是一個詞向量.txt檔案都有16G之多，太誇張了。。不過的確非常有特點： ⒈ 覆蓋率（Coverage）：該詞向量資料包含很多現有公開的詞向量資料所欠缺的

極簡使用︱Gemsim-FastText 詞向量訓練與使用

文章目錄

2 、fasttext訓練

2.1 訓練主函式

2.2 模型的儲存與載入

2.3 線上更新語料庫

2.4 c++ 版本的fasttext訓練

3 fasttext使用

3.1 獲得詞向量

3.2 詞向量詞典

3.3 與word2vec 相同的求相似性

4 fasttext 與 word2vec的對比

參考資源

相關推薦