深度學習語言模型(3)-word2vec負取樣(Negative Sampling) 模型(keras版本)

阿新 • • 發佈：2019-01-10

目錄:
深度學習語言模型(1)-word2vec的發展歷程
 深度學習語言模型(2)-詞向量，神經概率網路模型(keras版本)
深度學習語言模型(3)-word2vec負取樣(Negative Sampling) 模型(keras版本)

程式碼參考了:https://spaces.ac.cn/archives/4515
但他採用的是隨機取樣，我這裡採用的是負取樣，但還是有一些細節沒有去實現，但大體框架就這樣

# coding=utf-8
'''
Created on 2018年9月15日

@author: admin
'''

from gensim import corpora, 
 models, similarities
import numpy as np
import keras.backend as K
from keras.engine.topology import Layer
class NegativeLayer(Layer):
    def __init__(self, nb_negative,M,M_num, **kwargs):


        self.nb_negative = nb_negative
        self.M = M
        self.M_num = M_num
        super(NegativeLayer, 
 self).__init__(**kwargs)

    def build(self, input_shape):
        super(NegativeLayer, self).build(input_shape)


    def call(self, x, mask=None):

        batch = 0
        if str(x.shape[0]).isdigit() == False:
            batch = 4
        else:
            batch = x.shape[0]
        #負取樣
        final_output = 
 np.array([[M[i] for i in j]for j in np.random.randint(0, self.M_num+1, size=(batch, self.nb_negative))])
        #變成tensor格式
        final_output = K.tensorflow_backend._to_tensor(final_output,dtype=np.int32)
        return final_output
    def compute_output_shape(self, input_shape):
        return (input_shape[0], self.nb_negative)
if __name__ == '__main__':
    text = [["我","今天","打","籃球"],
            ["我","今天","打","足球"],
            ["我","今天","打","羽毛球"],
            ["我","今天","打","網球"],
            ["我","今天","打","排球"],
            ["我","今天","打","氣球"],
            ["我","今天","打","遊戲"],
            ["我","今天","打","冰球"],
            ["我","今天","打","人"],
            ["我","今天","打","檯球"],
            ["我","今天","打","桌球"],
            ["我","今天","打","水"],
            ["我","今天","打","籃球"],
            ["我","今天","打","足球"],
            ["我","今天","打","羽毛球"],
            ["我","今天","打","網球"],
            ["我","今天","打","排球"],
            ["我","今天","打","氣球"],
            ]
    #使用gensim生成詞典
    dictionary = corpora.Dictionary(text,prune_at=2000000)
    
    #列印詞典中的詞
    for key in dictionary.iterkeys():
        print(key,dictionary.get(key),dictionary.dfs[key])
    #儲存詞典
    dictionary.save_as_text('word_dict.dict',  sort_by_word=True)
    #載入詞典
    dictionary = dictionary.load_from_text('word_dict.dict')
    
    L = {}
    #計算出詞出現的總數，dictionary.dfs{單詞id，在多少文件中出現}
    allword_num = np.sum(list(dictionary.dfs.values()))
    print(allword_num)
    #72
    
    #構造負取樣dict
    #進行歸一化,然後按照0-1排列,然後再使用M個均等值來評分0-1，方便對應詞的id
    sum = 0
    M = {}
    M_num = 1000
    for id,num in dictionary.dfs.items():
        #向上取整
        left = int(np.ceil(sum/(1/M_num)))
        sum = sum + num/allword_num
        L[id] = sum
        #向下取整
        right = int(sum/(1/M_num))
        print(id,left,right)
#         11 0 13
#         0 14 263
#         10 264 277
#         12 278 291
#         1 292 541
#         2 542 791
#         7 792 819
#         13 820 833
#         8 834 861
#         14 862 875
#         9 875 888
#         3 889 916
#         6 917 944
#         5 945 972
#         4 973 1000
        for i in range(left,right+1):
            M[i] = id
    print(L)
    #{11: 0.013888888888888888, 0: 0.25, 10: 0.013888888888888888, 12: 0.013888888888888888, 1: 0.25, 2: 0.25, 7: 0.027777777777777776, 13: 0.013888888888888888, 8: 0.027777777777777776, 14: 0.013888888888888888, 9: 0.013888888888888888, 3: 0.027777777777777776, 6: 0.027777777777777776, 5: 0.027777777777777776, 4: 0.027777777777777776}
        
    #詞語個數
    word_num = len(dictionary.keys())
    #使用多少編文章生成每個batch資料
    sentence_batch_size = 1
    #滑動視窗
    window = 3
    def data_generator(): #訓練資料生成器
        while True:
            x,y = [],[]
            _ = 0
            for sentence in text:
                #使用word_num的值作為padding
                sentence = [word_num]*window + [dictionary.token2id[w] for w in sentence if w in dictionary.token2id] + [word_num]*window
                for i in range(window, len(sentence)-window):
                    x.append(sentence[i-window:i]+sentence[i+1:i+1+window])
                    #因為使用的loss函式為sparse_categorical_crossentropy，所以不用one-hot
                    y.append([sentence[i]])
                _ += 1
                if _ == sentence_batch_size:
                    x,y = np.array(x),np.array(y)
                    #因為正例為輸出層第一個神經元，所以這裡都使用0標籤，也是因為loss函式為sparse_categorical_crossentropy
                    z = np.zeros((len(x), 1))
                    print("輸入的資料 :",x.shape)
                    print("對應的標籤 :",y.shape)
                    print("對應的標籤 2:",z.shape)
                    yield [x,y],z
                    x,y = [],[]
                    _ = 0
        
    from keras.models import Sequential
    from keras.layers import Dense, Activation,Embedding,Reshape,Flatten,Input,Embedding,Lambda

    from keras.models import Model
    #詞向量維度
    word_size = 100
    #負樣本個數
    nb_negative = 16
    
    input_words = Input(shape=(window*2,), dtype='int32')
    input_vecs = Embedding(word_num+1, word_size, name='word2vec')(input_words)
    input_vecs_sum = Lambda(lambda x: K.sum(x, axis=1))(input_vecs) #CBOW模型，直接將上下文詞向量求和
    
    #構造隨機負樣本，與目標組成抽樣
    target_word = Input(shape=(1,), dtype='int32')
    negatives = NegativeLayer(16,M,M_num)(target_word)
    samples = Lambda(lambda x: K.concatenate(x))([target_word,negatives]) #構造抽樣，負樣本隨機抽。負樣本也可能抽到正樣本，但概率小。
    
    #使用Embedding層代替dense主要原因是隻更新正例和負例相對應的輸出層神經元的權重，這樣可以大量減少記憶體佔用和計算量
    softmax_weights = Embedding(word_num+1, word_size, name='W')(samples)
    softmax_biases = Embedding(word_num+1, 1, name='b')(samples)
    softmax = Lambda(lambda x: 
                        K.softmax((K.batch_dot(x[0], K.expand_dims(x[1],2))+x[2])[:,:,0])
                    )([softmax_weights,input_vecs_sum,softmax_biases]) #用Embedding層存引數，用K後端實現矩陣乘法，以此復現Dense層的功能
    
    #留意到，我們構造抽樣時，把目標放在了第一位，也就是說，softmax的目標id總是0，這可以從data_generator中的z變數的寫法可以看出
    
    model = Model(inputs=[input_words,target_word], outputs=softmax)
    model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
    
    

     
    model.summary()
    model.fit_generator(data_generator(),steps_per_epoch =np.ceil(dictionary.num_docs/sentence_batch_size),epochs=100,max_queue_size=1,workers=1)
#     #儲存模型
    model.save_weights("DNNword-vec2.h5")
#     #載入模型
    model.load_weights("DNNword-vec2.h5",by_name=True)
#     
    #獲取embeding的權重，也就是詞向量
    embeddings = model.get_weights()[0]
    #向量標準化
    normalized_embeddings = embeddings / (embeddings**2).sum(axis=1).reshape((-1,1))**0.5
    dictionary.id2token = {j:i for i,j in dictionary.token2id.items()}
    #獲取前面最相似的15個詞語
    def most_similar(w,dictionary):
        v = normalized_embeddings[dictionary.token2id[w]]
        #向量標準化之後分母就是1，所以直接相乘就好
        sims = np.dot(normalized_embeddings, v)
        sort = sims.argsort()[::-1]
        sort = sort[sort > 0]
        return [(dictionary.id2token[i],sims[i]) for i in sort[:15] if i in dictionary.id2token]
     
    for sim in most_similar(u'網球',dictionary):
        print(sim[0],sim[1])
# 網球 0.99999994
# 羽毛球 0.9787248
# 籃球 0.978495
# 排球 0.9773369
# 人 0.9761201
# 水 0.9760275
# 氣球 0.9753146
# 桌球 0.9731983
# 冰球 0.97278094
# 遊戲 0.9711289
# 足球 0.9660615
# 檯球 0.96072686
# 我 -0.3409065
# 打 -0.42166257

深度學習語言模型(3)-word2vec負取樣(Negative Sampling) 模型(keras版本)

目錄: 深度學習語言模型(1)-word2vec的發展歷程深度學習語言模型(2)-詞向量，神經概率網路模型(keras版本) 深度學習語言模型(3)-word2vec負取樣(Negative Sampling) 模型(keras版本) 程式碼參考了:https://spaces.a

[DeeplearningAI筆記]序列模型2.7負取樣Negative sampling

5.2自然語言處理覺得有用的話,歡迎一起討論相互學習~Follow Me 2.7 負取樣 Negative sampling Mikolov T, Sutskever I, Chen

深度學習課程之文字預處理、詞袋模型、word2vec、語言模型（1.9）

詞向量和語言模型深度學習其實最成功的應用是在影象上，有了 CNN 可以很好地提取影象上的特徵，這些特徵經過幾層的神經網路結構可以很好地組合成比較抽象的特徵。 NLP 常見任務自動摘要：媒體需要的頭條通過 NLP 自動提取機器翻譯主題識別文字分類

自然語言處理中傳統詞向量表示VS深度學習語言模型（三）：word2vec詞向量

在前面的部落格中，我們已經梳理過語言表示和語言模型，之所以將這兩部分內容進行梳理，主要是因為分散式的詞向量語言表示方式和使用神經網路語言模型來得到詞向量這兩部分，構成了後來的word2vec的發展，可以說是word2vec的基礎。1.什麼是詞向量

20180813視頻筆記深度學習基礎上篇（1）之必備基礎知識點深度學習基礎上篇（2）神經網絡模型視頻筆記：深度學習基礎上篇（3）神經網絡案例實戰和深度學習基礎下篇

計算概念人臉識別大量 png 技巧表現 lex github 深度學習基礎上篇（3）神經網絡案例實戰 https://www.bilibili.com/video/av27935126/?p=1 第一課:開發環境的配置 Anaconda的安裝庫的安裝 Windo

深度學習實戰（3）-打造自己的影象識別模型

這個筆記弄的我難受，推薦觀看者還是看原書吧............ 用VGG16作為例子簡單介紹：如何使用，去掉尾部，保留引數初始值如何訓練資料準備檔案轉換 data_convert.py原始碼： # coding:utf-8 fr

深度學習語言模型的通俗講解（Deep Learning for Language Modeling）

感想這是臺灣大學Speech Processing and Machine Learning Laboratory的李巨集毅 (Hung-yi Lee)的次課的內容，他的課有大量生動的例子，把原理也剖析得很清楚，感興趣的同學可以去看看，這裡是我對它的一次課的筆記，我覺得

吳恩達-深度學習-課程筆記-3: Python和向量化( Week 2 )

有時指數檢查都是效果很快 -1 tro str 1 向量化( Vectorization ) 在邏輯回歸中，以計算z為例，z = w的轉置和x進行內積運算再加上b，你可以用for循環來實現。但是在python中z可以調用numpy的方法，直接一句z = np.d

深度學習系列 Part(3)

舉例 call 連接 update 裏的就會 1.5 upd layers 這是《GPU學習深度學習》系列文章的第三篇，主要是接著上一講提到的如何自己構建深度神經網絡框架中的功能模塊，進一步詳細介紹 Tensorflow 中 Keras 工具包提供的幾種深度神經網絡模塊。

吳恩達深度學習專項課程3學習筆記/week2/Error analysis

ini 調整數據 class http 評估參數 pos 修正 Error analysis Carrying out error analysis Error analysis是手動分析算法錯誤的過程。通過一個例子來說明error analysis的過程。假設你在做

《Andrew Ng深度學習》筆記3

過程也看 9.png 簡化計算邏輯並且 str 初步 gpo 淺層神經網絡初步了解了神經網絡是如何構成的，輸入+隱藏層+輸出層。一般從輸入層計算為層0，在真正計算神經網絡的層數時不算輸入層。隱藏層實際就是一些算法封裝成的黑盒子。在對神經網絡訓練的時候，就是對神經

【讀書1】【2017】MATLAB與深度學習——多元分類(3)

假設神經網路在給定輸入資料時產生如圖4-11所示的輸出。 Assume that the neural network produced theoutput shown in Figure 4-11 when given the input data. 圖4-11 當使用sigmo

（轉載）深度學習基礎（3）——神經網路和反向傳播演算法

原文地址：https://www.zybuluo.com/hanbingtao/note/476663 轉載在此的目的是自己做個筆記，日後好複習，如侵權請聯絡我！！　　在上一篇文章中，我們已經掌握了機器學習的基本套路，對模型、目標函式、優化演算法這些概念有了一定程度的理解，而且已經會訓練單個的感知器或者

吳恩達深度學習筆記（3）-神經網路如何實現監督學習？

神經網路的監督學習(Supervised Learning with Neural Networks) 關於神經網路也有很多的種類，考慮到它們的使用效果，有些使用起來恰到好處，但事實表明，到目前幾乎所有由神經網路創造的經濟價值，本質上都離不開一種叫做監督學習的機器學習類別，讓我們舉例看看。

深度學習語言增強

作者：YeBobr 連結：https://www.zhihu.com/question/273665262/answer/388296862 來源：知乎著作權歸作者所有。商業轉載請聯絡作者獲得授權，非商業轉載請註明出處。最近在深度學習在語音增強中的應用最前沿的應該數GAN網路

深度學習入門筆記系列（三）——感知器模型和 tensorboard 的使用方法

本系列將分為 8 篇。今天是第三篇。主要講講感知器模型和 tensorboard 的基本使用方法。 1. 感知器模型因為小詹之前寫過一篇感知器模型的介紹，這裡就不贅述了。有需要鞏固的點選如下連結跳轉即可： 2. tensorboard Tenso

深度學習實戰（1）--手機跑目標檢測模型（YOLO，從DarkNet到Caffe再到NCNN完整打通）

這篇算是關鍵技術貼，YOLO是什麼、DarkNet是什麼、Caffe是什麼、NCNN又是什麼…等等這一系列科普這裡就完全不說了，牽扯實在太多，通過其他帖子有一定的積累後，看這篇就相對容易了。本文核心：把一個目標檢測模型跑到手機上整個工作分以下幾個階段： 1

深度學習 -- 神經網路 3

上一講介紹了2層神經網路，下面擴充套件開來，介紹通用L層神經網路深層神經網路構建神經網路的幾個重要步驟通過更加直觀的示意圖來表示，如下：這就是深度神經網路的內部實現原理，通過多次迭代訓練後，最終得到一個模型，然後用此模型進行預測在實現該網路之前，首

深度學習-54:生成式對抗網路GAN(原理、模型和演進)

深度學習-52:生成式對抗網路GAN(原理、模型和演進) 一般的學習模型都是基於一個假設的隨機分佈，然後通過訓練真實資料來擬合出模型。網路模型複雜並且資料集規模也不小，這種方法簡直就是憑藉天生蠻力解決問題。Goodfellow認為正確使用資料的方式，先對資料集

深度學習之PyTorch實戰（2）——神經網路模型搭建和引數優化

　　上一篇部落格先搭建了基礎環境，並熟悉了基礎知識，本節基於此，再進行深一步的學習。　　接下來看看如何基於PyTorch深度學習框架用簡單快捷的方式搭建出複雜的神經網路模型，同時讓模型引數的優化方法趨於高效。如同使用PyTorch中的自動梯度方法一樣，在搭建複雜的神經網路模型的時候，我們也可以使用PyTor

深度學習語言模型(3)-word2vec負取樣(Negative Sampling) 模型(keras版本)

相關推薦