5. BERT解析

阿新 • • 發佈：2018-11-02

1. 前言

在本文之前我們已經介紹了ELMo和GPT的兩個成功的模型，今天給大家介紹google新發布的BERT模型。BERT來頭可不小，其效能超越許多使用任務特定架構的系統，重新整理了11項NLP任務的當前最優效能記錄。

2. BERT原理

BERT模型的全稱是Bidirectional Encoder Representations from Transformers，它是一種新型的語言模型。之所以說是一種新型的語言模型，是因為它通過聯合調節所有層中的雙向

Transformer來訓練預訓練深度雙向表示。

想深入瞭解BERT模型，首先應該理解語言模型。預訓練的語言模型對於眾多自然語言處理問題起到了重要作用，比如SQuAD問答任務、命名實體識別以及情感識別。目前將預訓練的語言模型應用到NLP任務主要有兩種策略，一種是基於特徵的語言模型，如ELMo模型；另一種是基於微調的語言模型，如OpenAI GPT。這兩類語言模型各有其優缺點，而BERT的出現，似乎融合了它們所有的優點，因此才可以在諸多後續特定任務上取得最優的效果。

2.1 BERT模型總體結構

BERT是一種基於微調的多層雙向Transformer編碼器，其中的Transformer與原始的Transformer是相同的，並且實現了兩個版本的BERT模型，在兩個版本中前饋大小都設定為4層：

lBERTBASE：L=12，H=768，A=12，Total Parameters=110M

lBERTLARGE：L=24，H=1024，A=16，Total Parameters=340M

其中層數（即Transformer blocks塊）表示為L，隱藏大小表示為H，自注意力的數量為A。

2.2 BERT模型輸入

輸入表示可以在一個詞序列中表示單個文字句或一對文字(例如，[問題，答案])。對於給定的詞，其輸入表示是可以通過三部分Embedding求和組成。Embedding的視覺化表示如下圖所示：

token Embeddings表示的是詞向量，第一個單詞是CLS標誌，可以用於之後的分類任務，對於非分類任務，可以忽略詞向量；
Segment Embeddings用來區別兩種句子，因為預訓練不只做語言模型還要做以兩個句子為輸入的分類任務；
Position Embeddings是通過模型學習得到的。

2.3 BERT模型預訓練任務

BERT模型使用兩個新的無監督預測任務對BERT進行預訓練，分別是Masked LM和Next Sentence Prediction：

2.3.1 Masked LM

為了訓練深度雙向Transformer表示，採用了一種簡單的方法：隨機掩蓋部分輸入詞，然後對那些被掩蓋的詞進行預測，此方法被稱為“Masked LM”(MLM)。預訓練的目標是構建語言模型，BERT模型採用的是bidirectional Transformer。那麼為什麼採用“bidirectional”的方式呢？因為在預訓練語言模型來處理下游任務時，我們需要的不僅僅是某個詞左側的語言資訊，還需要右側的語言資訊。

在訓練的過程中，隨機地掩蓋每個序列中15％的token，並不是像word2vec中的cbow那樣去對每一個詞都進行預測。MLM從輸入中隨機地掩蓋一些詞，其目標是基於其上下文來預測被掩蓋單詞的原始詞彙。與從左到右的語言模型預訓練不同，MLM目標允許表示融合左右兩側的上下文，這使得可以預訓練深度雙向Transformer。Transformer編碼器不知道它將被要求預測哪些單詞，或者哪些已經被隨機單詞替換，因此它必須對每個輸入詞保持分散式的上下文表示。此外，由於隨機替換在所有詞中只發生1.5%，所以並不會影響模型對於語言的理解。

2.3.2 Next Sentence Prediction

很多句子級別的任務如自動問答（QA）和自然語言推理（NLI）都需要理解兩個句子之間的關係，譬如上述Masked LM任務中，經過第一步的處理，15%的詞彙被遮蓋。那麼在這一任務中我們需要隨機將資料劃分為等大小的兩部分，一部分資料中的兩個語句對是上下文連續的，另一部分資料中的兩個語句對是上下文不連續的。然後讓Transformer模型來識別這些語句對中，哪些語句對是連續的，哪些對子不連續。

2.4 模型比較

ELMo、GPT、BERT都是近幾年提出的模型，在各自提出的時候都取得了不錯的成績。並且相互之間也是相輔相成的關係。

3個模型比較如下：

再往前看，在NLP中有著舉足輕重地位的模型和思想還有Word2vec、LSTM等。

Word2vec作為里程碑式的進步，對NLP的發展產生了巨大的影響，但Word2vec本身是一種淺層結構，而且其訓練的詞向量所“學習”到的語義資訊受制於視窗大小，因此後續有學者提出利用可以獲取長距離依賴的LSTM語言模型預訓練詞向量，而此種語言模型也有自身的缺陷，因為此種模型是根據句子的上文資訊來預測下文的，或者根據下文來預測上文，直觀上來說，我們理解語言都要考慮到左右兩側的上下文資訊，但傳統的LSTM模型只學習到了單向的資訊。

3. 總結

語言模型的每一次進步都推動著NLP的發展，從Word2vec到ELMo，從OpenAI GPT到BERT。通過這些發展我們也可以洞悉到，未來表徵學習（Deep learning is representation learning）將會越來越多的應用到NLP相關任務中，它們可以充分的利用目前海量的資料，然後結合各種任務場景，去訓練出更為先進的模型，從而促進AI專案的落地。

（歡迎轉載，轉載請註明出處。歡迎溝通交流： [email protected]）

5. BERT解析

1. 語言模型

2. Attention Is All You Need（Transformer）原理小結

3. ELMo解析

4. OpenAI GPT解析

5. BERT解析

1. 前言

2. BERT原理

2.1 BERT模型總體結構

2.2 BERT模型輸入

2.3 BERT模型預訓練任務

2.3.1 Masked LM

2.3.2 Next Sentence Prediction

2.4 模型比較

3. 總結

5. BERT解析

socks 5 協議解析

Django rest framework（5）----解析器

laravel5.5 原始碼解析之belongToMany toggle

Android 5.0+ 解析（五）FloatingActionButton控制元件

HLS學習（六）HLSDownloader原始碼分析（5）解析Media PlayList

BERT解析及文字分類應用

[Architect] Abp 框架原理解析(5) UnitOfWork

【java規則引擎】drools6.5.0版本中kmodule.xml解析

5.Resource註解解析

5.2 dubbo-compiler源碼解析

HTML 5 5.0原始初代碼解析

解析：智慧醫療發展的5大趨勢

Android實例-Delphi開發藍牙官方實例解析(XE10+小米2+小米5)

解析MySQL binlog --（5）ROWS_EVENT:WRITE_ROWS_EVENT、UP

linux redhat6.5 中 DNS分離解析配置

Redhat6.5中搭建DNS分離解析服務器

Redhat6.5中搭建DNS域名解析服務

Redhat6.5中做DNS分離解析實驗

無法解析parent POM——1.5.3.RELEASE

5. BERT解析

1. 前言

2. BERT原理

2.1 BERT模型總體結構

2.2 BERT模型輸入

2.3 BERT模型預訓練任務

2.3.1 Masked LM

2.3.2 Next Sentence Prediction

2.4 模型比較

3. 總結

相關推薦