NLP課程：詞向量到Word2Vec理論基礎及相關程式碼

阿新 • • 發佈：2018-12-23

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。

詞向量：

NLP的發展主要有兩個方向：

傳統方向：基於規則
現代方向：基於統計機器學習：如HMM(隱馬爾可夫)、CRF(條件隨機場)、SVM、LDA(主題模型）、CNN..

詞向量需要保證空間中分佈的相似性：

離散表示進階：

One-hot表示：很容易理解，即在有詞的地方填充1，其他地方填充0，作為一個長向量。
Bag of Words（詞袋模型）表示：是在one-hot基礎上進行優化，用單詞出現的次數來表示文件。文件的向量表示可以直接將各詞的詞向量表示加和：

TF-IDF

是進一步優化了考慮單詞在整體文件中的頻次：

Bi-gram和N-gram表示：前面的兩種方法都只是表示了單個單詞的關係，沒有上下文順序的關係，因此發展出了N-gram和Bi-gram（如果一個詞的出現僅依賴於它前面出現的一個詞，那麼我們就稱之為 Bi-gram：參考一），一句話 (詞組合) 出現的概率為：

這樣表示的優點是：考慮的了詞順序，但是缺點是詞表膨脹，導致計算量增大。
離散表示的問題：
①無法衡量詞向量之間的關係；

②詞表維度隨著語料庫增長膨脹；
③n-gram詞序列隨語料庫膨脹更快；
④資料稀疏問題。

分散式表示 (Distributed representation)

：在離散表示的基礎上發展而出，用一個詞附近的其他詞表示該詞，被稱為現代統計自然語言最有創見的想法之一，舉例如下：

共現矩陣(Cocurrence matrix)：Word - Document 的共現矩陣主要用於發現主題(topic)，用於主題模型，如LSA (Latent Semantic Analysis)，局域窗中的Word - Word 共現矩陣可以挖掘語法和語義資訊：

將共現矩陣行(列)作為詞向量存在問題：

向量維數隨著詞典大小線性增長；
儲存整個詞典的空間消耗非常大；
一些模型如文字分類模型會面臨稀疏性問題；

模型會欠穩定

SVD降維：受上面存在的問題，進行改進構造低維稠密向量 (25~1000維)作為詞的分散式表示，想到用SVD對共現矩陣向量做降維：

但是也同樣存在問題：

計算量隨語料庫和詞典增長膨脹太快，對X(n,n)維的矩陣，計算量O(n^3)。而對大型的語料庫，n~400k，語料庫大小1~60B token ；
難以為詞典中新加入的詞分配詞向量；
與其他深度學習模型框架差異大。

Word2vec：

上面敘述了很多詞向量表示方法，現在終於進入正題。

NNLM (Neural Network Language model) ：這個模型可以說是word2vec的前身，它直接從語言模型出發，將模型最優化過程轉化為詞向量表示的過程，目標函式為：

改進點：
①使用了非對稱的前向窗函式，窗長度為n-1；
②滑動視窗遍歷整個語料庫求和，計算量正比於語料庫大小；
③概率P滿足歸一化條件，這樣不同位置t處的概率才能相加，即：
結構：

其中：
①(N-1)個前向詞:one-hot表示；
②採用線性對映將one-hot表示投影到稠密D維表示；
③輸出層:Softmax；
④各層權重最優化:BP＋SGD ；
⑤詞典維數V，稠密詞向量表示維數D 。

計算複雜度：每個訓練樣本的計算複雜度為：N * D + N * D * H + H * V（ps：一個簡單模型在大資料量上的表現比複雜模型在少資料量上的表現會好）：

CBOW(連續詞袋)：是word2vec模型的一種，從單詞袋上下文預測目標單詞，結構如下：

特點：①無隱層；②使用雙向上下文視窗；③輸入層直接使用低維稠密表示；④投影層簡化為求和(平均)。
目標函式：
概率分佈計算方法：
（1）層次softmax：①使用Huffman Tree 來編碼輸出層的詞典；②只需要計算路徑上所有非葉子節點詞向量的貢獻即可；③計算量降為樹的深度 V => log_2(V) ：
那麼：其中：
①Sigmoid函式：
②n(w,j)：Huffman數內部第j層的節點
③ch(n(w,j))：n節點的child節點
④[[n(w,j+1)=ch(n(w,j)]] 是選擇函式，表明只選擇從根節點到目標葉節點路徑上的內部節點

（2）負例取樣：P(w|context(w))：一個正樣本，V-1個負樣本，對負樣本做取樣：
其中： $X_{w}$ 是context(w)中詞向量的和 , $\theta ^{u}$ 是詞u對應的一個(輔助)向量 ,NEG(w)是w的負樣本取樣子集
損失函式：對語料庫中所有詞w求和：
詞典中的每一個詞對應一條線段，所有片語成了[0，1］間的剖分：
實際使用中取counter(w)^(3/4)效果最好，l1,l2,.....,ln組成了[0, 1]間的剖分:
將[0, 1]劃分為M=10^8等分，每次隨機生成一個[1, M-1]間的整數，看落在那個詞對應的剖分上。

Skip-grams (SG)：這是word2vec模型的另一種，是預測給定目標的上下文單詞:

結構如下：

特點與CBOW類似：
①無隱層；②投影層也可省略；③每個詞向量作為log-linear模型的輸入；
目標函式：

概率密度由softmax計算：

Word2Vec: 存在的問題：

對每個local context window單獨訓練，沒有利用包含在global co-currence矩陣中的統計資訊；
對多義詞無法很好的表示和處理，因為使用了唯一的詞向量；

總結：

離散表示：

One-hot representation, Bag Of Words Unigram語言模型
N-gram詞向量表示和語言模型
Co-currence矩陣的行(列)向量作為詞向量

分散式連續表示：

Co-currence矩陣的SVD降維的低維詞向量表示
Word2Vec: Continuous Bag of Words Model
Word2Vec: Skip-Gram Model

更多案例程式碼：歡迎關注我的github

To be continue......

NLP課程：詞向量到Word2Vec理論基礎及相關程式碼

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。詞向量： NLP的發展主要有兩個方向：傳統方向：基於規則現代方向：基於統計機器學習：如HMM(隱馬爾可夫)、CRF(條件隨機場)、SVM、LDA(主題模型）、CNN.. 詞向量需要保證空間中分佈的相似性：

ml課程：FM因子分解機介紹及相關程式碼

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。 FM(factorization machines)表示因子分解機，是由Steffen Rendle提出的一種基於矩陣分解的機器學習演算法。目前，被廣泛的應用於廣告預估模型中，相比LR而言，效果更好。主要目標是：解決資料稀疏的情況下，特

[NLP] 秒懂詞向量Word2vec的本質穆文

大家好我叫資料探勘機皇家布魯斯特大學肄業我喝最烈的果粒橙，鑽最深的牛角尖 ——執著如我今天我要揭開Word2vec的神祕面紗直窺其本質相信我，這絕對是你看到的最淺白易懂的 Word2vec 中文總結（蛤？你問我為啥有這個底氣？且看下面，我的踩坑血淚史。。。） 2. Word2vec參考

ml課程：模型融合與調優及相關案例程式碼

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。這篇文章主要介紹模型融合及引數調優相關內容，以及《百面機器學習》上關於模型評估、整合相關內容，最後還有相關案例程式碼。先放一張大家都比較熟悉的圖：這是模型選擇的一個流程圖，可以作為相關的參考。模型評估：評估

DL課程：RNN、LSTM、GRU及相關應用案例程式碼

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。前面學習了CNN卷積神經網路，本文主要介紹RNN迴圈神經網路及相關升級版。 RNN迴圈神經網路： RNN（Recurrent Neural Network）是一類用於處理序列資料的神經網路。簡單來看，把序列按時間展開結構如下：

Kaggle word2vec NLP 教程第二部分：詞向量

第二部分：詞向量程式碼第二部分的教程程式碼在這裡。分散式詞向量簡介本教程的這一部分將重點介紹使用 Word2Vec 演算法建立分散式單詞向量。（深度學習的概述，以及其他一些教程的連結，請參閱“什麼是深度學習？”頁面）。第 2 部分和第 3 部分比第

Kaggle word2vec NLP 教程第三部分：詞向量的更多樂趣

第三部分：詞向量的更多樂趣程式碼第三部分的程式碼在這裡。單詞的數值表示現在我們有了訓練好的模型，對單詞有一些語義理解，我們應該如何使用它？如果你看它的背後，第 2 部分訓練的 Word2Vec 模型由詞彙表中每個單詞的特徵向量組成，儲存在一個名為sy

NLP課程：nlp基礎word processing

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。自然語言處理髮展：在網上看了很多文章都沒有屢清楚LDA、n-gram、one-hot、word embeding、word2vec等等的關係，直到看到這篇文章：參考1 要分清楚兩個概念：語言模型和詞的表示語言模型：

吳恩達Coursera深度學習課程 deeplearning.ai (5-2) 自然語言處理與詞嵌入--程式設計作業(一)：詞向量運算

Part 1: 詞向量運算歡迎來到本週第一個作業。由於詞嵌入的訓練計算量龐大切耗費時間長，絕大部分機器學習人員都會匯入一個預訓練的詞嵌入模型。你將學到：載入預訓練單詞向量，使用餘弦測量相似度使用詞嵌入解決類別問題，比如 “Man is to

理論跟不上了：開始復習理論基礎

數據傳輸地址尋址鏈路層上層封裝 telnet 復雜 pdu 應用層計算機網絡組成：硬件軟件目的：實現資源共享、信息傳遞。計算機網絡功能：數據通信、資源共享、增加數據可靠性、提高系統處理能力網絡協議與標準協議：一組控制數據通信的規則標

TensorFlow學習指南6：詞向量

word2vec # -*- coding: utf-8 -*- """ Created on Thu Dec 29 00:39:23 2016 @author: tomhope """ import os import math import numpy as np i

自然語言處理(NLP) 三：詞袋模型 + 文字分類

1.詞袋模型（BOW,bag of words) 用詞頻矩陣作為每個樣本的特徵 Are you curious about tokenization ? Let’s see how it works! we need to analyze a coupl

秒懂詞向量Word2vec的本質

轉自我的公眾號: 『資料探勘機養成記』 1. 引子大家好我叫資料探勘機皇家布魯斯特大學肄業我喝最烈的果粒橙，鑽最深的牛角尖 ——執著如我今天我要揭開Word2vec的神祕面紗直窺其本質相信我，這絕對是你看到的最淺白易懂的 Word2vec 中文總結（蛤？你問我為啥有這個底氣？且看下面

詞向量—Word2Vec入門及Gensim實踐

在機器學習領域，語音識別和影象識別都比較容易做到。語音識別的輸入資料可以是音訊頻譜序列向量所構成的matrix，影象識別的輸入資料是畫素點向量構成的矩陣。但是文字是一種抽象的非結構化的資料，顯然不能直接把文字資料餵給機器當做輸入，因此這裡就需要對文字資料進行處理。 Word

思考：資訊工程的理論基礎？

建築工程 —— 古埃及、瑪雅 —— 靜力學、幾何學 —— 算術 —— 本體論、形而上學機械工程、發動機 —— 17世紀以後的歐洲 —— 動力學、熱力學、材料科學 —— 微積分 —— 認識論、辯證法電子工程、無線電 —— 20世紀xx年代起 —— 半導體、類比電路 ——

用深度學習來獲取文字語義：詞向量應用於自然語言處理

詞向量是一種把詞處理成向量的技術，並且保證向量間的相對相似度和語義相似度是相關的。這個技術是在無監督學習方面最成功的應用之一。傳統上，自然語言處理（NLP）系統把詞編碼成字串。這種方式是隨意確定的，且對於獲取詞之間可能存在的關係並沒有提供有用的資訊。詞向量是NLP領域的一

web伺服器專題：tomcat（一）基礎及模組

Web伺服器專題：Tomcat（一）基礎及模組針對java系的經典伺服器，打算系統的整理一下Tomcat的機制和一些原理，以此記錄。插一則題外話，關於tomat這個名字的由來：Tomcat 名稱的由來關於Tomcat 基礎的 tomcat 內容就不過多贅述了，基本的百度百科都可以看到，在這裡我想從cat

js基礎及相關面試題

js基本資料型別： String，Object，number，undefined，boolean，function js陣列及其常用的方法： var arr =new Array(); arr[i]=1 // 新增資料 pop：刪除陣列的方法並返回刪除陣列的值 var a

jacob基礎及其相關程式碼

/* jacob 相關包官網下載 jacob 配置環境 http://xiaoduan.blog.51cto.com/502137/136692/ 呼叫其他控制元件需要到登錄檔註冊 regsvr32 + 路徑名+.dll檔案(

web前端課程技術總結Node.js 使用方法及相關方法分析

測試一個 ejs 強制 req != server 跨域 ade Node.js 使用方法及相關方法分析首先我們要了解什麽是node.js？官方解釋是：node.js是一個基於Chrome v8引擎的javascript 運行環境。Node.js使用了一個事件驅動、非

NLP課程：詞向量到Word2Vec理論基礎及相關程式碼

詞向量：

Word2vec：

總結：

相關推薦