手動建立詞向量訓練神經網路

阿新 • • 發佈：2022-02-13

一直不太明白詞向量怎樣產生，搜尋生成原理後，自己分別使用word2vector和自建單隱層神經網路進行訓練（資料集優美，量少，不用太在意訓練效果，主要記錄流程）

先介紹資料處理與網路架構：

1.訓練資料集：

import torch
import torch.nn as nn
from torch.nn import CrossEntropyLoss
from torch.optim import SGD
import jieba
from gensim import corpora
import gensim
import numpy as np
import matplotlib.pyplot as plt


text = ['我愛你，就算不說出來，時光也會把它熬成最動人的情話。',
        '我行過許多地方的橋，看過許多次數的雲，喝過許多種類的酒，卻只愛過一個正當最好年齡的人',
        '我愛你。即使要拿這個江山做交換，我也不會放你離開，沒有人能將你從我身邊奪走',
        '如果可以和你在一起，我寧願讓天空所有的星光全部損落，因為你的眼睛，是我生命裡最亮的光芒。',
        '你永遠也看不到我最寂寞時候的樣子，因為只有你不在我身邊的時候，我才最寂寞。',
        '對不起，我還是很想你，你早已遠去，我卻還待在原地。對不起，我還是好想你，怎能說放就忘，我沒那麼勇敢',
        '世上最遙遠的距離，不是生與死的距離，不是天各一方，而是我就站在你面前，你卻不知道我愛你。',
        '你會因為一首歌喜歡上一個人，因為一個人喜歡一個城市，因為一個城市喜歡上一種生活，然後因為一首歌，想念某個人。',
        '我喜歡你，笨拙而熱烈，一無所有又傾盡所有。']

#jieba.add_word() # 一次新增一個詞彙
jieba.load_userdict('userdict.txt') # 新增自定義檔案詞典,詞彙形式 ‘詞 詞頻 詞性(n)’
text_ = [jieba.lcut(i) for i in text]
text_ = [list(filter(lambda x: x not in ('。','，'),i)) for i in text_]
text_
'''
['我', '愛', '你', '就算', '不說', '出來', '時光', '也', '會', '把', '它', '熬成', '最', '動人', '的', '情話’],
['我行', '過', '許多', '地方', '的', '橋', '看過', '許多', '次數', '的', '雲', '喝過', '許多', '種類', '的', '酒', '卻', '只', '愛過', '一個',  '正當', '最好', '年齡', '的', '人’],
['我', '愛', '你', '即使', '要', '拿', '這個', '江山', '做', '交換', '我', '也', '不會', '放', '你', '離開', '沒有', '人能', '將', '你', '從’,‘我', '身邊', '奪走’],
......

'''

2.使用gensim中的word2vector直接生成詞向量

w2v = gensim.models.Word2Vec(sentences=text_,vector_size=5,window=2,min_count=0)

#1 輸出詞彙的詞向量
w2v.wv['愛']
w2v.wv['喜歡']
'''
array([-0.03110135,  0.00735455, -0.08144382, -0.15453787, -0.0296591 ],
      dtype=float32)
array([-0.14973408, -0.01746239,  0.19247814, -0.14743246, -0.04586641],
      dtype=float32)
'''

#2 求詞彙的文字相似度
w2v.wv.similarity('我','你')
w2v.wv.similarity('我','一無所有')
'''
 0.20868862
-0.29505315
'''
#3 求句子異常值
w2v.wv.doesnt_match(['我', '不說', '你'])
'''
'你'  # 明顯感覺訓練的差點意思
'''

# 求文字相似度topN
w2v.wv.most_similar(positive=['愛'],negative=['我'],topn=2)
'''
[('雲', 0.8236473798751831), ('可以', 0.8154597878456116)]
'''

3.使用pytorch建立單隱層神經網路，訓練詞向量

#1 生成語料的詞彙表
dictionary = corpora.Dictionary(text_) # 每句話是分詞列表
list(dictionary.items())
'''
[(0, '不說'),
 (1, '也'),
 (2, '會'),
 (3, '你'),
 (4, '出來'),
 (5, '動人'),
 (6, '它'),
 (7, '就算')
 ......
 (114, '傾盡'),
 (115, '又'),
 (116, '熱烈'),
 (117, '笨拙'),
 (118, '而')]
'''

#2 形成訓練資料集(使用CBOW訓練方式)
def create_train(texts,windows=2):
    '''
    texts: 帶訓練語料(已one-hot處理)
    windows: 滑動視窗，表示每個詞考慮前面n個詞，後面n個詞（若不夠，按實際個數）
    '''
    X = []
    for text in texts:
        for index in range(len(text)):
            x_l = text[index-windows:index]
            label = text[index]
            x_r = text[index+1:index+1+windows]
            X.append((x_l+x_r,label))
    return X


data = create_train(text_)
data
'''
[(['愛', '你'], '我'),
 (['你', '就算'], '愛'),
 (['我', '愛', '就算', '不說'], '你'),
 (['愛', '你', '不說', '出來'], '就算'),
 (['你', '就算', '出來', '時光'], '不說'),
 (['就算', '不說', '時光', '也'], '出來'),
 (['不說', '出來', '也', '會'], '時光'),
 (['出來', '時光', '會', '把'], '也'),
 ......
 (['笨拙', '而', '一無所有', '又'], '熱烈'),
 (['而', '熱烈', '又', '傾盡'], '一無所有'),
 (['熱烈', '一無所有', '傾盡', '所有'], '又'),
 (['一無所有', '又', '所有'], '傾盡'),
 (['又', '傾盡'], '所有')]
'''

#3 生成one-hotEncoder
def gen_x_onehot(words):
    res = [] 
    def gen_onehot(x):  # 輸入字元，返回字元對應的one-hot編碼
        eg = [0 for i in range(len(dictionary))]
        eg[dictionary.doc2idx([x])[0]] = 1
        return eg
    
    if isinstance(words,str):
        return gen_onehot(words) # y 是一維陣列
    
    if isinstance(words,list): # x 是二維陣列,對於中心詞兩邊不滿指定windows詞彙的輸入，使用全0陣列填充
        for x in words:
            eg = [0 for i in range(len(dictionary))]
            res_temp = [gen_onehot(i) for i in x]
            if len(res_temp) < 4:
                res_temp += [eg for i in range(4-len(res_temp))]
            res.append(res_temp)
        return res
#4 形成X和y 
x,y = [i[0] for i in data],[i[1] for i in data]
x,y = gen_x_onehot(x),[gen_onehot(i) for i in y]
x = torch.tensor(x,dtype=torch.float32)
y = torch.tensor(y,dtype=torch.float32)
x.shape
y.shape
x[2]
y[2]

'''
torch.Size([203, 4, 119])

torch.Size([203, 119])

tensor([[0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.,
        ...... 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.
        ......0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        ......0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])
         
tensor([0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       ......0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

'''


#5 構建單層DNN神經網路
class Net(nn.Module):
    
    def __init__(self,V=1,dim=5):
        super().__init__()
        # self.con = nn.Conv2d(in_channels=1,out_channels=1,kernel_size=con_kernel)
        self.linear1 = nn.Linear(in_features=V,out_features=dim)
        self.linear2 = nn.Linear(in_features=dim,out_features=V)
    
    def forward(self,x):
        x_temp = torch.tensor([self.linear1(i).tolist() for i in x],dtype=torch.float32) # forward函式，會對輸入的特徵一一處理，再封裝成原shape
        x = torch.tensor([torch.mean(i,dim=0).tolist() for i in x_temp],dtype=torch.float32)
        x = self.linear2(x)
        return x
    
#6 生成網路物件，引數初始化(本次試驗程式碼，引數少，可以不進行初始化)
net = Net(V=len(dictionary))
for module in net.modules():
    if isinstance(module,nn.Linear):
        nn.init.kaiming_uniform_(module.weight)
#7 定義交叉熵損失函式
loss = CrossEntropyLoss()

#8 定義優化引數
opt = SGD(params=net.parameters(),lr=0.03,momentum=0.2)

#9 訓練
y = torch.tensor([torch.argmax(i) for i in y]) # 把真實標籤轉換成序列類別編碼，方便損失函式使用,交叉熵要求y標籤維整形
epochs = 1000
loss_value_list =[]
for epoch in range(epochs):
    z = net(x)
    loss_value = loss(z,y)
    opt.zero_grad()
    loss_value.backward()
    opt.step()
    print(loss_value)
    loss_value_list.append(loss_value)

4.1畫出訓練結果

plt.plot(range(epochs),loss_value_lis

4.2 使用訓練模型的引數進行詞向量生成和文字相似度計算

#10 檢視模型效果
# 獲取訓練後的詞向量函式，使用詞的one-hot稀疏向量*模型訓練出的weight就是詞向量
def get_vector(word):
    m = torch.tensor(gen_x_onehot(word),dtype=torch.float32).unsqueeze(dim=0)
    v = net.linear1.weight.detach()
    return torch.mm(m,torch.t(v))

#11 輸出詞彙的詞向量
a = get_vector('我')
b = get_vector('你')
c = get_vector('一無所有')
a,b,c
'''
(tensor([[-0.0368,  0.0531, -0.1158, -0.1076,  0.0613]]),
 tensor([[-0.0711,  0.0060, -0.0542, -0.0017, -0.0071]]),
 tensor([[ 0.1930, -0.0442,  0.1802, -0.2211, -0.0414]]))
'''

#12 # 求取餘弦相似度
torch.cosine_similarity(a,b)
torch.cosine_similarity(a,c)
'''
tensor([0.5493])
tensor([-0.1428])
'''

手動建立詞向量訓練神經網路

在python下實現word2vec詞向量訓練與載入例項

專案中要對短文字進行相似度估計，word2vec是一個很火的工具。本文就word2vec的訓練以及載入進行了總結。

訓練神經網路為什麼要把訓練資料打亂？

不把資料打亂的訓練和測試的效果：打亂訓練資料後得到的訓練和測試效果要好的多：反思：我想到把資料打亂來獲得好的效果，這種靈感是來自參考了老師的程式，老師的程式中把資料進行了打亂，效果不錯。所以

快速進行詞向量訓練和讀取

1.詞向量訓練demo from gensim.models import Word2Vec from gensim.test.utils import common_texts import jieba

linux系統下訓練神經網路無響應中斷辦法

技術標籤：linux神經網路深度學習linux 在程式碼有bug，或者計算量實在過大的情況下，經常出現網路執行後無反應的情況。目前嘗試過兩種方法：

MNIST訓練神經網路 acc:99.2%+(pytorch)

1.對LeNet-5的改進將kernel_size=5的卷積層變為兩層kernel_size=3的卷積層，並加入batch_normalization，具體實現如下：

[吳恩達團隊自然語言處理第二課_3]詞嵌入與神經網路

[吳恩達團隊自然語言處理第二課_3]詞嵌入與神經網路 Overview 主要應用 Semantic analogies and similarity

使用Keras建立一個卷積神經網路模型，可對手寫數字進行識別

在過去的幾年裡，影象識別研究已經達到了驚人的精確度。不可否認的是，深度學習在這個領域擊敗了傳統的計算機視覺技術。

什麼？！只用30行程式碼就能建立一個JavaScript的神經網路？

在本文中，我將向你展示如何使用Synaptic.js來建立和訓練神經網路，它允許你在Node.js和瀏覽器中進行深度學習。我們將建立最簡單的神經網路:一個能夠解決XOR方程的問題。

使用自己的資料集建立神經網路訓練模型

該內容來自---https://blog.csdn.net/weixin_43974748/article/details/89600269 使用Tensorflow建立自己的資料集，並訓練

學習筆記CB009:人工神經網路模型、手寫數字識別、多層卷積網路、詞向量、word2vec

人工神經網路，借鑑生物神經網路工作原理數學模型。由n個輸入特徵得出與輸入特徵幾乎相同的n個結果，訓練隱藏層得到意想不到資訊。資訊檢索領域，模型訓練合理排序模型，輸入特徵，文件質量、文件點選歷史、文件前鏈

基於pytorch 預訓練的詞向量用法詳解

如何在pytorch中使用word2vec訓練好的詞向量 torch.nn.Embedding() 這個方法是在pytorch中將詞向量和詞對應起來的一個方法. 一般情況下,如果我們直接使用下面的這種:

使用 pytorch 建立神經網路擬合sin函式的實現

我們知道深度神經網路的本質是輸入端資料和輸出端資料的一種高維非線性擬合，如何更好的理解它，下面嘗試擬合一個正弦函式，本文可以通過簡單設定節點數，實現任意隱藏層數的擬合。

Python實現Keras搭建神經網路訓練分類模型教程

我就廢話不多說了，大家還是直接看程式碼吧~ 註釋講解版： # Classifier example import numpy as np

神經網路量化入門--量化感知訓練

上一篇文章介紹了後訓練量化的基本流程，並用 pytorch 演示了最簡單的後訓練量化演算法。

用PyTorch對Leela Zero進行神經網路訓練

作者|Peter Yu 編譯|Flin 來源|towardsdatascience 最近，我一直在尋找方法來加快我的研究和管理我的實驗，特別是圍繞著寫訓練管道和管理實驗配置檔案這兩個方面，我發現這兩個新專案叫做PyTorch Lightning和Hydra。

【tensorflow】自制神經網路訓練資料集

在實際應用中，我們常常需要自制資料集，解決本領域應用，而資料通常是圖片或文字，需要做格式轉換，才能在訓練時使用。

【詞向量】騰訊中文預訓練詞向量

騰訊詞向量介紹騰訊詞向量主頁：https://ai.tencent.com/ailab/nlp/zh/embedding.html 詞向量下載地址：https://ai.tencent.com/ailab/nlp/zh/data/Tencent_AILab_ChineseEmbedding.tar.gz

神經網路訓練中回撥函式的實用教程

作者|Andre Ye 編譯|VK 來源|Towards Data Science 回撥函式是神經網路訓練的重要組成部分

TensorFlow 2建立神經網路分類模型

原文連結：http://tecdat.cn/?p=15791 本文將利用機器學習的手段來對鳶尾花按照物種進行分類。本教程將利用 TensorFlow 來進行以下操作：

手動建立詞向量訓練神經網路

1.訓練資料集：

2.使用gensim中的word2vector直接生成詞向量

3.使用pytorch建立單隱層神經網路，訓練詞向量

4.1畫出訓練結果

4.2 使用訓練模型的引數進行詞向量生成和文字相似度計算

相關推薦