1. 程式人生 > 其它 >閱讀論文時的一些常見問題(持續更新)

閱讀論文時的一些常見問題(持續更新)

目錄

池化層在NLP應用

MLM是什麼

  • 實際上就是掩碼語言模型(Masked Language Model),比如大家常說的Bert、GPT、EMLo等都是屬於MLM,只是掩碼的種類不同而已。MLM的做法就是隨機遮蔽輸入序列的一些token,然後僅僅通過上下文來預測被遮蔽token的原單詞表id。
  • 參考一參考二

多層感知器-MLP

全連線層到底用來幹什麼?

  • 首先最常見的功能就是轉變維度,即輸出符合要維度,此外全連線層出現在後幾層還可能是用來對前面的特徵做加權和,以此獲得更多的資訊提取特徵,實現分類(CNN中是這樣的),但是一層全連線層沒法解決非線性問題,如果有兩層以上就可以了,比如前饋層(兩個全連線層)。此外相比於self-attention全連線層的權重更多以位置為基準

  • 在神經網路中通常還會與softmax中進行結合,全連線層將權重矩陣與輸入向量相乘再加上偏置,將n個的實數對映為K個的實數(分數);Softmax將K個的實數對映為K個0~1的實數(概率),同時保證它們之和為1。

因子分解機

token和span

整理一下tensor的型別

深度學習中Attention與全連線層的區別何在?

張量操作

詞嵌入維度,如何選擇?

word2vec實現

本文來自部落格園,作者:xingye_z,轉載請註明原文連結:https://www.cnblogs.com/xyzhrrr/p/15863339.html