1. 程式人生 > 其它 >關於Transformer模型中的各種細節詳解

關於Transformer模型中的各種細節詳解

目錄

概述

Transformer是2017年的一篇論文《Attention is All You Need》提出的一種模型架構,這篇論文裡只針對機器翻譯這一種場景做了實驗,全面擊敗了當時的機器翻譯各個benchmark(基準)上的SOTA。其優點除了效果好之外,由於encoder端是平行計算的,訓練的時間也被大大縮短了

它開創性的思想,顛覆了以往序列建模和RNN劃等號的思路,現在被廣泛應用於NLP的各個領域。目前在NLP各業務全面開花的語言模型如GPT, BERT等,都是基於Transformer模型的。因此弄清楚Transformer模型內部的每一個細節就顯得尤為重要。

鑑於寫Transformer的中英文各類文章非常之多,一些重複的、淺顯的東西在本文裡都不再贅述。在本文中,我會盡可能地去找一些很核心也很細節的點去剖析

,並且將細節和整體的作用聯絡起來解釋

本文儘量做到深入淺出,力求覆蓋我自己學習時的每一個困惑,做到“知其然,且知其所以然”。我相信通過我抽絲剝繭的分析,大家會對Transformer每個部分的作用有一個更加深入的認識,從而對這個模型架構整體的認知上升到一個新的臺階,並且能夠深刻理解Transformer及其延伸工作的動機。