重學transformer【學習筆記】

阿新 • • 發佈：2022-04-12

以前對transformer的瞭解只能說個大概你要說會吧會的不徹底不會吧還能扯一頓。

來源：B站老弓的學習筆記

這一步講 decoder的工作原理怎麼感覺像個序列的？一會需要多注意

分批的時候是按照批次內的最長我記得不是可設定嗎填充到多少？

拿一個batch舉例

input不需要處理，tar需要處理

為什麼要做這個處理呢原因如下

還有個建立mask的過程（要我看就跟就是分段似的）就是對不起來的符號置1 原來的還是0

這裡要仔細看原圖。看看 decoder_padding_mask是怎麼來的

【輸入層】embedding這裡用最原始的embedding 比如說將每個字用一個4維的向量表示

【位置編碼】

embedding的結果加上這個位置編碼。因為transformer平行計算沒理解到位置資訊

位置編碼公式：

所得的位置向量和embedding相加

在每個字的維度中 sin cos是交錯的。

特點：1 當d_model 跟seq_length確定時候，位置編碼即可確定（d_model按照自己通常的理解就是每個字的維度長，seq_len則是句子長）2.同時引入了絕對位置資訊與相對位置資訊。

絕對位置：每個橫框相當於一個向量可以看到是獨一無二的

相對位置：週期性變化規律

改進方向：也就是說存在缺陷

現存缺點：相對位置資訊在self-attention線性變化後消失（為什麼消失？？

）

縮放希望是embedding佔絕大部分

【Encoder部分】

self-attention

self-attention大致過程

【scaled dot-product attention縮放點積注意力】

原因：1 前向傳播角度 2.反向傳播角度

前向傳播角度

為什麼q*k之後均值是0 方差是dk了呢？

相當於求這塊的唄

（自注：終於從方差角度講清楚了居然還聽懂了嘿嘿）

反向傳播角度

（自注為啥會梯度消失）

為0也不行

【Multi head】

理論上

實際上

用同一套W引數然後將QKV拆分

為什麼要使用多頭：

保證了transformer可以注意到不同子空間的資訊，捕捉到更加豐富的特徵資訊

11【padding 掩碼】消除padding的影響具體就產生在softmax處

如果沒有掩碼那綠色的0專案也會產生對應權重。

【add & norm】

add實際上是殘差網路

這個add殘差就是這個Inp輸入經過多頭注意力後在與這個inp相加

作用：能使訓練層數達到比較深的層次。

這裡作者主要講述了原因：（ps:以前自己只知道面上的作用，並不瞭解其原理）

仔細看圖中的1是哪來的，y=XA+XC所以為1.

有了1這項保證，無論第二項怎麼樣也不會造成梯度消失。

這個視訊有專門去講

什麼是batchnorm 對每個特徵求一個均值方差。對每個值減去均值除以標準差

什麼是layernorm?

為什麼用layernorm而不用batchnorm

首先最直觀的原因是batchnorm在nlp領域效果不好

如圖所示，你這個batchnorm加了padding項算出來的肯定不好啊

【前饋神經網路】

其實就是兩層全連線層

【decoder】

看一個並集上三角是look ahead mask 矩形是padding mask

這個的多頭注意力是左邊產生了 k v 右邊decoder的產生了q

這裡為什麼沒有Look ahead mask呢？

因為現在是decoder跟encoder進行互動

【linear層】隱藏神經元的個數是詞表個數包含開頭結尾

【損失函式】交叉熵損失

要有1 標籤值 2消除padding項帶來的影響。

注意此處的padding項與以前的做法相反此處是padding的置為0

準確的說是兩項相乘。之前是相加是因為後邊經過softmax

注意：

如果標籤是one-hot就可以categoricalCrossentropy

如上圖所示右邊的標籤是個one hot的時候

注意這個交叉熵損失解決了自己以前的一個困惑就是每個字元都分類得出一個序列的損失如何計算

查pytroch裡邊該是什麼函式沒查到啊看起來像這個？

nn.MultiMarginLoss https://blog.csdn.net/weixin_43687366/article/details/107927693?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_baidulandingword~default-1.pc_relevant_default&spm=1001.2101.3001.4242.2&utm_relevant_index=4

（這裡他說進來的predi是個概率值那yi是個什麼東西是1？不能吧）

要把綠色產生的損失消除掉因為是填充的準不準的無所謂

然後對這個loss求一個平均的損失

【自定義學習率】

重學transformer【學習筆記】

以前對transformer的瞭解只能說個大概你要說會吧會的不徹底不會吧還能扯一頓。

【學習筆記】sentinel原始碼學習--transport模組

一、背景介紹 sentinel介紹：https://github.com/alibaba/Sentinel 本篇我們介紹一下sentinel-transport模組，從原始碼工程的README.md裡

【學習筆記】矩陣乘法題目選講

這是校內講課課件。其實這些程式碼我覺得並沒有必要放上，不過作為許多題解的合集，海蝕放上了。

【學習筆記】Link Cut Tree

Link Cut Tree(LCT) 是一種用來解決動態樹問題的資料結構。前置芝士：Splay 部分參考：FlashHu 的部落格；OI Wiki - Link Cut Tree

【學習筆記】Git工具clone異常

1.在編譯Qtpdf時，需要clone pdfium john@john-virtual-machine:~/work/qtpdf$ git submodule update --init --recursive

【學習筆記】二分圖匹配——匈牙利演算法 By 5ab as a juruo.

目錄關於二分圖二分圖匹配演算法講解模板程式碼輸入格式輸出格式Code例題關於二分圖

【學習筆記】PostgreSQL進階技巧之別名、索引、日期時間和自增

這一節主要包括以下內容：別名索引日期和時間函式自增一、別名說明：別名(Alias)用於為列或表提供臨時名稱。通常來說，當您執行自聯接時，會建立一個臨時表.

【學習筆記】PostgreSQL進階技巧之檢視、函式和觸發器

這一節主要包括以下內容：檢視函式觸發器一、檢視說明：檢視是一個偽表，可以便於使用者執行如下操作：

【學習筆記】PostgreSQL進階查詢之連線查詢和子查詢

這一節主要包含以下內容：內連線左外連線右外連線全連線跨連線子查詢一、內連線

【學習筆記】PostgreSQL進階技巧之聯合查詢、修改表和截斷表

這一節主要包含如下內容： UNION子句修改表截斷表一、UNION子句說明： UNION子句/運算子用於組合兩個或多個SELECT語句的結果，而不返回任何重複的行。

【學習筆記】PostgreSQL進階技巧之事務、鎖和許可權

這一節主要包含如下內容：事務鎖許可權一、事務說明：事務是對資料庫執行的工作單元。事務是以邏輯順序完成的工作的單位或順序，無論是使用者手動的方式還是通過某種資料庫程式自動執行。

【學習筆記】動態dp

概述動態$dp$是一類需要對$dp$的輸入資料進行修改，並在修改後要快速查詢的問題。

【學習筆記】單調佇列 & 單調棧

單調佇列和單調棧都是維護單調性的線性資料結構。如果瞭解過 RMQ 的同學可能知道，大部分 RMQ 資料結構的區間查詢複雜度都是 \$O(\\log n)\$ 級別的。但是單調佇列和單調棧卻能在 \$O(1)\$ 的時間內完成類似操作

【學習筆記】trie的進階

Trie的進階目錄Trie的進階前言Vol 1 01trieVol 2 瞎弄Vol 3 可持久化後記前言 Trie名為”字典樹“，在部分書中被歸類於字串板塊。事實上，trie的功能並不侷限於字串（字典的功能也不侷限於查詢單詞嘛）。本文將探討

【學習筆記】虛樹

虛樹學習筆記洛穀日報構建方法1 將所有點按照 dfs 序排序每次新增一個結點，維護最右鏈

【學習筆記】VS Code的launch.json 的 Python和Chrome常用配置（MacOS）

遇到的問題： 1、無法直接用VS Code呼叫Chrome來開啟HTML檔案 2、VS Code呼叫Chrome成功後，Python直譯器無法啟動除錯了

【學習筆記】線性篩尤拉函式

目錄Bases篩法Code View Bases 這裡給出的篩法是以線性篩素數的方法為基礎的。利用了尤拉函式是積性函式的性質:對於任意互質的數\$a\$,\$b\$,有\$f(a*b)=f(a)*f(b)\$

【學習筆記】Pytorch深度學習—損失函式

前面學習瞭如何構建模型、模型初始化，本章學習損失函式。本章從3個方面學習，（1）損失函式的概念以及作用；（2）學習交叉熵損失函式；（3）學習其他損失函式NLL、BCE、BCEWithLogits Loss

【學習筆記】Lyndon Word

定義若一個字串\$s\$的最小字尾是它自己，我們稱其為\$Lyndon\$串。等價定義：若\$s\$是其所有迴圈重構串中字典序最小的串，則\$s\$是\$Lyndon\$串。

【學習筆記】linux編譯poppler

1.下載原始碼 https://poppler.freedesktop.org/ 2.命令列編譯命令 mkdir build cd build cmake .. make

重學transformer【學習筆記】

nn.MultiMarginLoss https://blog.csdn.net/weixin_43687366/article/details/107927693?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_baidulandingword~default-1.pc_relevant_default&spm=1001.2101.3001.4242.2&utm_relevant_index=4

相關推薦