機器學習20-詞向量（Word2Vec）技術

阿新 • • 發佈：2019-01-11

使用gensim工具包，利用20類新聞文字（20newsgroups）進行詞向量訓練；
並且通過抽樣幾個詞彙，查驗Word2Vec技術是否可以在不借助任何語言學知識的前提下，尋找到相似的其他詞彙。

from sklearn.datasets import fetch_20newsgroups
from bs4 import BeautifulSoup
import nltk, re
from gensim.models import word2vec

#定義一個函式名為news_to_sentences將每條新聞中的句子逐一剝離出來，
#並返回一個句子逐一剝離出來，並返回一個句子列表。
def 
 news_to_sentences(news):
    news_text = BeautifulSoup(news).get_text()
    tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
    raw_sentences = tokenizer.tokenize(news_text)
    sentences = []
    for sent in raw_sentences:
        sentences.append(re.sub('[^a-zA-Z]', ' ', sent.lower().strip()).split())
    return 
 sentences


news = fetch_20newsgroups(subset='all')
X, y = news.data, news.target

sentences = []
#將長篇新聞文字中的句子剝離出來，用於訓練。
for x in X:
    sentences += news_to_sentences(x)

#配置詞向量的維度。
num_features = 300
#保證被考慮的詞彙的頻度
min_word_count = 20
#設定並行化訓練使用CPU計算核心的數量，多核可用。
num_workers = 2
#定義訓練詞向量的上下文視窗大小
context = 5 

downsampling = 1e-3

model = word2vec.Word2Vec(sentences, workers=num_workers,\
                          size=num_features, min_count=min_word_count,\
                          window=context, sample=downsampling)
#這個設定代表當前訓練好的詞向量為最終版，也可以加快模型的訓練速度。
model.init_sims(replace=True)
#利用訓練好的模型，尋找訓練文字中與morning最相關的10個詞彙
m = model.most_similar('morning')
print(m)
#out[]:
# [('afternoon', 0.8285419940948486), 
#  ('weekend', 0.7679079174995422), 
#  ('evening', 0.7551226615905762), 
#  ('saturday', 0.7222977876663208), 
#  ('night', 0.7116754055023193), 
#  ('friday', 0.6781198978424072), 
#  ('sunday', 0.6390078067779541), 
#  ('newspaper', 0.6356056928634644), 
#  ('summer', 0.6305795907974243), 
#  ('week', 0.6181687116622925)]

#利用訓練好的模型，尋找訓練文字中與email最相關的10個詞彙。
e = model.most_similar('email')
print(e)
#out[]:
# [('mail', 0.7398847341537476),
#  ('contact', 0.6963222622871399),
#  ('address', 0.6542695164680481),
#  ('replies', 0.646983802318573),
#  ('mailed', 0.6348010897636414),
#  ('request', 0.632864236831665), 
#  ('send', 0.6214576959609985), 
#  ('sas', 0.6191704869270325), 
#  ('listserv', 0.6177695989608765), 
#  ('compuserve', 0.5945062041282654)]

通過以上兩組輸出，我們不難發現，在不使用語言學詞典的前提下，詞向量技術仍可以藉助上下文資訊找到詞彙之間的相似性。這一技術不僅節省了大量專業人士的作業時間，而且也可以作為一個基礎模型應用到更加複雜的自然語言處理任務中。

機器學習20-詞向量（Word2Vec）技術

使用gensim工具包，利用20類新聞文字（20newsgroups）進行詞向量訓練；並且通過抽樣幾個詞彙，查驗Word2Vec技術是否可以在不借助任何語言學知識的前提下，尋找到相似的其他詞彙。 from sklearn.datasets import f

機器學習算法整理（七）支持向量機

技術分享分享 bubuko wid width tro 技術 16px ID 容錯能力越強越好 b為平面的偏正向，w為平面的法向量，x到平面的映射：先求的是，距分界線距離最小的點；然後再求的是什麽樣的w和b，使得這樣的點，距離分界線的值最大。放縮之

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第三課詞向量（2）

一、word2vec 1、回顧：skip-grams word2vec的主要步驟是遍歷整個語料庫，利用每個視窗的中心詞來預測上下文的單詞，然後對每個這樣的視窗利用SGD來進行引數的更新。對於每一個視窗而言，我們只有2m+1個單詞（其中m表示視窗的半徑），因此我們計算出來的梯度向量是

Word2Vec詞向量（一）

一、詞向量基礎（一）來源背景　　word2vec是google在2013年推出的一個NLP工具，它的特點是將所有的詞向量化，這樣詞與詞之間就可以定量的去度量他們之間的關係，挖掘詞之間的聯絡。雖然原始碼是開源的，但是谷歌的程式碼庫國內無法訪問， &

gensim的word2vec如何得出詞向量（python）

首先需要具備gensim包，然後需要一個語料庫用來訓練，這裡用到的是skip-gram或CBOW方法，具體細節可以去查查相關資料，這兩種方法大致上就是把意思相近的詞對映到詞空間中相近的位置。語料庫test8下載地址: 這個語料庫是從http://blog.csdn.net/m

機器學習基本概念總結（轉載）

9.png png log images es2017 enter 08-18 機器學習 style 機器學習基本概念總結（轉載）

機器學習--近鄰成分分析（NCA）算法和度量學習

學習 tar 本質技術結果 font ear art component 1、近鄰成分分析（NCA）算法以上內容轉載自：http://blog.csdn.net/chlele0105/article/details/13006443 2、度量學習在機器學習中，

輕松入門機器學習之概念總結（二）

消息目的作者固定 erp 效率 dev 常用度量歡迎大家前往雲加社區，獲取更多騰訊海量技術實踐幹貨哦~ 作者：許敏接上篇：機器學習概念總結筆記（一） 8）邏輯回歸 logistic回歸又稱logistic回歸分析，是一種廣義的線性回歸分析模型，常用於數據挖掘

機器學習算法整理（二）邏輯回歸 python實現

alt bubuko 邏輯 style res n) regress com png 邏輯回歸(Logistic regression) 機器學習算法整理（二）邏輯回歸 python實現

機器學習算法整理（三）決策樹

outlook spa com width 選擇 clas .com img 衡量標準決策樹的訓練與測試如何切分特征（選擇節點）衡量標準-熵信息增益決策樹構造實例信息增益：表示特

ng機器學習視頻筆記（五） ——過擬合與正則化

哪些重復關註 osi 現實 regular 鏈接梯度下降簡單 ng機器學習視頻筆記（五） ——過擬合與正則化（轉載請附上本文鏈接——linhxx）一、過擬合和欠擬合 1、概念當針對樣本集和特征值，進行預測的時候，推導θ、梯度下降等，都在

ng機器學習視頻筆記（六） ——神經網絡基礎

一個變量視頻 img 輸入 center 內容 line 基礎 ng機器學習視頻筆記（六） ——神經網絡基礎（轉載請附上本文鏈接——linhxx）一、概述神經網絡，可以理解為輸入的內容，經過一系列的內部的處理，得到輸出的假設函數。簡單的神

ng機器學習視頻筆記（一）——線性回歸、代價函數、梯度下降基礎

info 而且 wid esc 二維 radi pan 圖形 clas ng機器學習視頻筆記（一） ——線性回歸、代價函數、梯度下降基礎（轉載請附上本文鏈接——linhxx）一、線性回歸線性回歸是監督學習中的重要算法，其主要目的在於用一個函數表

ng機器學習視頻筆記（二） ——梯度下降算法解釋以及求解θ

表示大於解釋圖片 bubuko eight 閾值自己極小值 ng機器學習視頻筆記（二） ——梯度下降算法解釋以及求解θ （轉載請附上本文鏈接——linhxx）一、解釋梯度算法梯度算法公式以及簡化的代價函數圖，如上圖所示。

ng機器學習視頻筆記（四） ——logistic回歸

微信 style 簡化關註 ora 微信公眾號預測縮放 log ng機器學習視頻筆記（四） ——logistic回歸（轉載請附上本文鏈接——linhxx）一、概述 1、基本概念 logistic回歸（logistic regression）

機器學習算法整理（六）— 貝葉斯算法_拼寫糾正實例_垃圾郵件過濾實例

mage width 分享整理 font .com size 圖片 span （p(h): 先驗概率）垃圾郵箱過濾實例機器學習算法整理（六）— 貝葉斯算法_拼寫糾正實例_垃圾郵件過濾實例

機器學習算法整理（六）— 貝葉斯算法_實現垃圾郵件過濾

image 實現 info mage 郵件技術機器 eight 實例垃圾郵件過濾實例機器學習算法整理（六）— 貝葉斯算法_實現垃圾郵件過濾

機器學習之數學基礎（一）-微積分，概率論和矩陣

系列學習 python 機器學習自然語言處理圖片 clas 數學基礎記錄學習python快一年了，因為之前學習python全棧時，沒有記錄學習筆記想回顧發現沒有好的記錄，目前主攻python自然語言處理方面，把每天的學習記錄記錄下來，以供以後查看，和交流分享。~~

吳恩達《機器學習》課程總結（7）正則化

額外分享哪些 TP 回歸分享圖片表現例子兩個 7.1過擬合的問題訓練集表現良好，測試集表現差。魯棒性差。以下是兩個例子（一個是回歸問題，一個是分類問題）解決辦法：（1）丟棄一些不能幫助我們正確預測的特征。可以使用工選擇保留哪些特征，或者使用一些模型選擇

吳恩達《機器學習》課程總結（15）異常檢測

是否 5.6 問題 com 結果平移分享出現問題計算過程 15.1問題的動機將正常的樣本繪制成圖表（假設可以），如下圖所示：當新的測試樣本同樣繪制到圖標上，如果偏離中心越遠說明越可能不正常，使用某個可能性閾值，當低於正常可能性閾值時判斷其為異常，然後做進一步的

機器學習20-詞向量（Word2Vec）技術

相關推薦