閱讀論文時的一些常見問題(持續更新)
阿新 • • 發佈:2022-02-04
目錄
- 池化層在NLP應用
- MLM是什麼
- 多層感知器-MLP
- 全連線層到底用來幹什麼?
- 因子分解機
- token和span
- 整理一下tensor的型別
- 深度學習中Attention與全連線層的區別何在?
- 張量操作
- 詞嵌入維度,如何選擇?
- word2vec實現
池化層在NLP應用
-
池化的作用則是對特徵進行“總結”,即對特徵進行壓縮,提取主要特徵。NLP中最常用的池化操作是max-over-time Pooling,即用特徵在所有時間步的最大值來代表特徵,還可參考此
MLM是什麼
- 實際上就是掩碼語言模型(Masked Language Model),比如大家常說的Bert、GPT、EMLo等都是屬於MLM,只是掩碼的種類不同而已。MLM的做法就是隨機遮蔽輸入序列的一些token,然後僅僅通過上下文來預測被遮蔽token的原單詞表id。
- 參考一 、參考二
多層感知器-MLP
全連線層到底用來幹什麼?
-
首先最常見的功能就是轉變維度,即輸出符合要維度,此外全連線層出現在後幾層還可能是用來對前面的特徵做加權和,以此獲得更多的資訊提取特徵,實現分類(CNN中是這樣的),但是一層全連線層沒法解決非線性問題,如果有兩層以上就可以了,比如前饋層(兩個全連線層)。此外相比於self-attention全連線層的權重更多以位置為基準
-
在神經網路中通常還會與softmax中進行結合,全連線層將權重矩陣與輸入向量相乘再加上偏置,將n個的實數對映為K個的實數(分數);Softmax將K個的實數對映為K個0~1的實數(概率),同時保證它們之和為1。
因子分解機
token和span
整理一下tensor的型別
深度學習中Attention與全連線層的區別何在?
張量操作
詞嵌入維度,如何選擇?
- 可以參考蘇神的這篇部落格:關於維度公式“n > 8.33 log N”的可用性分析
word2vec實現
- 可以參考wmathor大佬的這篇部落格:Word2Vec 的 PyTorch 實現(乞丐版)
本文來自部落格園,作者:xingye_z,轉載請註明原文連結:https://www.cnblogs.com/xyzhrrr/p/15863339.html