pytorch中embedding詞嵌入的作用

阿新 • • 發佈：2018-12-24

Embedding

詞嵌入在 pytorch 中非常簡單，只需要呼叫 torch.nn.Embedding(m, n) 就可以了，m 表示單詞的總數目，n 表示詞嵌入的維度，其實詞嵌入就相當於是一個大矩陣，矩陣的每一行表示一個單詞。

emdedding初始化

預設是隨機初始化的

import torch
from torch import nn
from torch.autograd import Variable
# 定義詞嵌入
embeds = nn.Embedding(2, 5) # 2 個單詞，維度 5
# 得到詞嵌入矩陣,開始是隨機初始化的
torch.manual_seed(1)
embeds.weight
# 輸出結果：
Parameter containing:
-0.8923 -0.0583 -0.1955 -0.9656  0.4224
 0.2673 -0.4212 -0.5107 -1.5727 -0.1232
[torch.FloatTensor of size 2x5]

如果從使用已經訓練好的詞向量，則採用

pretrained_weight = np.array(args.pretrained_weight)  # 已有詞向量的numpy
self.embed.weight.data.copy_(torch.from_numpy(pretrained_weight))

embed的讀取

讀取一個向量。
注意引數只能是LongTensor型的

# 訪問第 50 個詞的詞向量
embeds = nn.Embedding(100, 10)
embeds(Variable(torch.LongTensor([50])))
# 輸出：
Variable containing:
 0.6353  1.0526  1.2452 -1.8745 -0.1069  0.1979  0.4298 -0.3652 -0.7078  0.2642
[torch.FloatTensor of size 1x10]

讀取多個向量。
輸入為兩個維度(batch的大小，每個batch的單詞個數)，輸出則在兩個維度上加上詞向量的大小。

Input: LongTensor (N, W), N = mini-batch, W = number of indices to extract per mini-batch
Output: (N, W, embedding_dim)
見程式碼

# an Embedding module containing 10 tensors of size 3
embedding = nn.Embedding(10, 3)
# 每批取兩組，每組四個單詞
input = Variable(torch.LongTensor([[1,2,4,5],[4,3,2,9]]))
a = embedding(input) # 輸出2*4*3
a[0],a[1]

輸出：

(Variable containing:
 -1.2603  0.4337  0.4181
  0.4458 -0.1987  0.4971
 -0.5783  1.3640  0.7588
  0.4956 -0.2379 -0.7678
 [torch.FloatTensor of size 4x3], Variable containing:
 -0.5783  1.3640  0.7588
 -0.5313 -0.3886 -0.6110
  0.4458 -0.1987  0.4971
 -1.3768  1.7323  0.4816
 [torch.FloatTensor of size 4x3])

pytorch中embedding詞嵌入的作用

Embedding 詞嵌入在 pytorch 中非常簡單，只需要呼叫 torch.nn.Embedding(m, n) 就可以了，m 表示單詞的總數目，n 表示詞嵌入的維度，其實詞嵌入就相當於是一個大矩陣，矩陣的每一行表示一個單詞。 emdedding初始化預設是隨機初始化的 im

深度學習使用word embedding(詞嵌入)的原因

1、基於神經網路的詞分佈表示，將單詞對映到低維連續向量詞嵌入編碼了語義空間中的線性關係，向量不同部分表示不同的語義。比如“國王-往後”與“男-女”的類比反映中語義空間的線性關係。 2、相似詞對映到了相似方向，語義相似性被編碼近義詞或者“相似”詞的鄰居詞分佈類

詞嵌入 word embedding

原文連結：https://blog.csdn.net/ch1209498273/article/details/78323478 詞嵌入（word embedding）是一種詞的型別表示，具有相似意義的詞具有相似的表示，是將詞彙對映到實數向量的方法總稱。詞嵌入是自然語言處理的重要突破

pytorch：詞嵌入和n-gram

本文學習於《深度學習入門之Pytorch》對於影象分類的問題，我們會使用one-hot方式進行分類，但是對於NLP中的問題，處理單詞這種十分多種類的問題時，使用one-hot是行不通的，這個時候就引入了詞嵌入。 &nbs

“什麼是Word Embedding（詞嵌入）”的個人理解

首先貼上一下Wiki英文的定義： Word embedding is the collective name for a set of language modeling and feature learning techniques in natural language

神經網路中embedding層作用——本質就是word2vec，資料降維，同時可以很方便計算同義詞（各個word之間的距離），底層實現是2-gram（詞頻）+神經網路

Embedding tflearn.layers.embedding_ops.embedding (incoming, input_dim, output_dim, validate_indices=False, weights_init='truncated_norm

無監督學習：詞嵌入or詞向量（Word Embedding）

National Taiwan University (NTU)李巨集毅老師的《Machine Learning》的學習筆記，因此在全文對視訊出現的內容多次引用。初出茅廬，學藝不精，有不足之處還望大家不吝賜教。歡迎大家在評論區多多留言互

「詞嵌入」在自然語言處理中扮演什麼角色？一文搞懂Word Embeddings的背後原理

原文來源：DATASCIENCE 作者：Ruslana Dalinina 「機器人圈」編譯：嗯~阿童木呀、多啦A亮「機器人圈」正式更名為「雷克世界」，後臺回覆「雷克世界」檢視更多詳

詞嵌入向量（Word Embedding）的原理和生成方法

Word Embedding 詞嵌入向量(WordEmbedding)是NLP裡面一個重要的概念，我們可以利用Word Embedding將一個單詞轉換成固定長度的向量表示，從而便於進行數學處理。本文將介紹Word Embedding的使用方式，並講解如何通過神經網路生成W

[機器學習入門] 李巨集毅機器學習筆記-15 （Unsupervised Learning: Word Embedding；無監督學習：詞嵌入）

[機器學習入門] 李巨集毅機器學習筆記-15 （Unsupervised Learning: Word Embedding；無監督學習：詞嵌入） PDF VIDEO

文字表示模型中涉及的知識點整理(詞袋模型，TF-IDF，主題模型，詞嵌入模型)

1.詞袋模型（Bags of Words）詞袋模型是最基礎的文字表示模型，就是把每一篇文章看成一袋子單詞，並忽略每個此出現的順序。具體就是將整段文字以詞為單位分開，每篇文章可以表示成一個長向量，向量中的每一維代表一個單詞，而該維對應的權重代表這個詞在文章中的重要程度。

詞嵌入和網路在NLP中貢獻

本文解釋如何應用神經網路並整合詞嵌入到基於文字的應用中，還有一些主要暗含的好處。首先詞嵌入是詞的密集向量表示，其中相似的詞在向量空間中儘可能相似。例如在下圖中，所有大型貓科動物在向量空間中都很相近。詞嵌入表示一種很成功的非監督學習的應用，主要由於他們的泛化能

淺談詞嵌入（word embedding）

今天在李巨集毅老師的公開課上學習了word embedding，中文就是詞嵌入的意思。故將學習內容整理一下，方便以後回顧。 1. 引入計算機如何理解一句話，一篇文章的意思呢？計算機是用來做數值運算的，故需要將單詞或者片語轉換成數字，才能進行存入計算機進行計

Linux中常見目錄的作用

執行保存配置文件家目錄 pro 系統配置命令 dev bin目錄　　有四個bin目錄，分別是/bin、/sbin、/usr/bin/、/usr/sbin/ 　　用來保存系統命令，區別是前兩個目錄下的命令所有用戶都可以執行，後兩個目錄下的命令只有超級用戶可以執

uboot中 make xxx_config 的作用（以make smdk2410_config為例）

mdk nbsp xxx cpu clu samsung uboot 作用頭文件 1、創建到目標板相關文件的鏈接 ln -s asm-arm asm ln -s arch-s3c24x0 asm-arm/arch ln -s proc-armv asm-arm/pr

Java中接口的作用

完成業務測試新的我不是什麽 sign 綁定可用轉載於：https://www.zhihu.com/question/20111251 困惑：例如我定義了一個接口，但是我在繼承這個接口的類中還要寫接口的實現方法，那我不如直接就在這個類中寫實現方法豈不是更便捷，還

JavaScript中變量、作用域和內存問題（JavaScript高級程序設計第4章）

外部對象的引用 pan object 揮手 fun 可用內存限制 argument 一、變量（1）ECMAScript變量肯能包含兩種不同的數據類型的值：基本類型值和引用類型值。基本類型值指的是簡單的數據段，引用類型值指那些可能由多個值構成的對象。（2）基本數據類型

在java中RandomAccessFile類的作用：對指定文件可以進行讀寫的操作

cnblogs 讀寫 acc com ces 作用分享進行 .com 在java中RandomAccessFile類的作用：對指定文件可以進行讀寫的操作

java中System.getProperty()的作用及使用

south pro name watermark sta tin fontsize sun copyto Java中給我們提供了System.getProperty()這個函數，這個函數可以獲取到Java JVM以及操作系統的一些參數，可以供程序判斷等。 System.ge

SpringBoot中@EnableAutoConfiguration註解的作用

springboot enable auto 在這個註解中，最重要的是它導入了一個類EnableAutoConfigurationImportSelector它是一個ImportSelector接口的實現類，而ImportSelector接口中的selectImports方法所返回的類將被Spri

pytorch中embedding詞嵌入的作用

Embedding

emdedding初始化

embed的讀取

相關推薦