Attention各個維度計算方法

阿新 • • 發佈：2020-10-23

在這裡插入圖片描述
這裡是對self-Attention具體的矩陣操作，包括怎麼separate head，如何進行的QK乘法等細節做了記錄，以便自己以後檢視。

dot-product Attention

在這裡插入圖片描述
其中的 X n , d m o d e l X^{n,d_{model}} Xn,dmodel一般是seq序列，n為序列的長度， d m o d e l d_{model} dmodel為序列的emedding維度。在self-attention中 d k d_k dk和 d v d_v dv是相等的。

multi-head Attention

其中的 X b s , l e n g t h , e m b X^{bs,length,emb}

Xbs,length,emb一般是輸入的序列，維度的意義如名字所示。

首先用三個矩陣 W Q W K W V W_QW_KW_V WQWKWV分別對QKV嵌入一個新的維度，emb2也就是projection_dim，當然也可以保持原有的維度不變。
以 Q b s , l e n g t h , e m b 2 Q^{bs,length,emb2} Qbs,length,emb2舉例，需要將head分離出來，做法也就是對Q的最後一個維度reshape
對QK做矩陣乘法，這裡注意，Q和K的維度是四個維度( Q b s , h e a d , l e n g h t , e m b 2 / / h e a d Q^{bs,head,lenght,emb2//head}

Qbs,head,lenght,emb2//head)，這裡的乘法是保持bs和head不變只在最後兩個維度做乘法，所以得到的Attention矩陣 A b s , h e a d , l e n g h t , l e n g t h A^{bs,head,lenght,length} Abs,head,lenght,length，這裡的意義就是使用者序列的每一個詞都對其餘的詞有一個attention值。
A V T AV^T AVT得到 Y b s , h e a d , l e n g t h , e m b 2 / / h e a d Y^{bs,head,length,emb2//head} Y

bs,head,length,emb2//head，對Y進行reshape一下將head去掉恢復原來QKV的形狀 Y b s , l e n g t h , e m b 2 Y^{bs,length,emb2} Ybs,length,emb2

Attention各個維度計算方法

這裡是對self-Attention具體的矩陣操作，包括怎麼separate head，如何進行的QK乘法等細節做了記錄，以便自己以後檢視。

Mysql資料庫的QPS和TPS的意義和計算方法

在做db基準測試的時候，qps,tps 是衡量資料庫效能的關鍵指標。本文比較了網上的兩種計算方式。先來了解一下相關概念。

AUC計算方法與Python實現程式碼

-AUC計算方法 -AUC的Python實現方式 AUC計算方法 AUC是ROC曲線下的面積，它是機器學習用於二分類模型的評價指標，AUC反應的是模型對樣本的排序能力。它的統計意義是從所有正樣本隨機抽取一個正樣本，從所有負樣本隨

numpy庫ndarray多維陣列的維度變換方法(reshape、resize、swapaxes、flatten)

numpy庫對多維陣列有非常靈巧的處理方式，主要的處理方法有： .reshape(shape) ：不改變陣列元素，返回一個shape形狀的陣列，原陣列不變

MySQL中位數計算方法

在網上搜到的一種演算法是利用自增長變數進行排序，然後再根據位置序號取。感覺有些複雜了，還是group_concat來的省事些

基金指數C持有多長時間比指數A划算？計算方法

<?php header(\"content-type:text/html;charset=utf-8\"); //以投資1萬元為例 $money = 10000; //指數A

Python執行時間的幾種計算方法

首先說一下我遇到的坑，生產上遇到的問題，我排程Python指令碼執行並監控這個程序，python指令碼執行時間遠遠大於python指令碼中自己統計的程式執行時間。

3. 神經網路基礎：計算方法及其python實現

在前一節筆記中，我們大概瞭解了神經網路的數學原理——它是如何判斷一張圖是不是“貓圖”，以及它是如何實現炫酷的“學習、訓練”過程的。

AOP計算方法執行時長

AOP計算方法執行時長依賴引入 <dependency> <groupId>org.springframework.boot</groupId>

numpy.cov() 協方差計算方法

公式原理對於隨機變數\$X\$，\$Y\$，協方差\$COV(X,Y)=E(X-\\bar{X})(Y-\\bar{Y})=E(XY)-EXEY\$

Pytorch 擴充套件Tensor維度、壓縮Tensor維度的方法

1. 擴充套件Tensor維度　　相信剛接觸Pytorch的寶寶們，會遇到這樣一個問題，輸入的資料維度和實驗需要維度不一致，輸入的可能是2維資料或3維資料，實驗需要用到3維或4維資料，那麼我們需要擴充套件這個維度。其實特

校驗和計算方法

引用連結：困或博主校驗和計算方法 1.哪些地方使用校驗和 IP校驗和：IP首部。

熒光定量PCR：基因相對錶達量計算方法

熒光定量PCR之後計算目的基因的相對錶達量一般採用2-△△ct的方法。我們還是假設對照組和處理組各有三個生物學重複（即對照組3個cDNA樣品cDNA1, cDNA2, cDNA3，處理組3個cDNA樣品cDNA4, cDNA5, cDNA6），三

Linux程序CPU的佔用率計算方法

檢視程序執行的詳細資訊通過檢視/proc/[PID]/stat檔案，可以檢視程序執行的詳細資訊，其中包括CPU佔用資訊。比如

【機器學習】auc的計算方法

技術標籤：機器學習機器學習 auc是什麼 auc是roc的面積，是從一批正負樣本中，選擇一個正樣本，一個負樣本，正樣本比負樣本預測值大的概率。我們使用頻率去逼近概率，所以就先對所有樣本預測值從大到小排序，並從

負載均衡的計算方法和含義

技術標籤：linux系統性能我們在執行top 或者uptime時，會計算當前系統的負載平衡。當前系統的負載平衡是看我們cpu對於當前執行任務的一個執行情況。同時也判斷我們系統的任務對於cpu的需求情況。這句話是對於

cad鈑金展開外掛_鈑金折彎展開的計算方法彙總

技術標籤：cad鈑金展開外掛提醒：點上方↑↑↑“鈑金學習網”免費關注 90度折彎

網格人為干擾度計算方法的matlab程式碼實現

技術標籤：matlab matlab計算網格人為干擾度方法以土地利用型別資料為底圖，利用ARCGIS建立漁網工具建立漁網，以每一個網格為評價單元，計算人為干擾度。並把人為干擾度賦值給各網格。

淺談PostgreSQL消耗的記憶體計算方法

wal_buffers預設值為-1,此時wal_buffers使用的是shared_buffers,wal_buffers大小為shared_buffers的1/32

用Python模擬整數乘法的小學豎式計算方法

技術標籤：python列表python演算法用Python模擬整數乘法的小學豎式計算方法模擬整數乘法的小學豎式計算方法示例：關於這個計算的思路：是將較小的數從個位開始，把每一位數乘以較大的乘數，得到的結果自取一

Attention各個維度計算方法

dot-product Attention

multi-head Attention

相關推薦