韓國小哥哥用Pytorch實現谷歌最強NLP預訓練模型BERT | 程式碼

阿新 • • 發佈：2019-02-13

乾明編譯整理自 GitHub
量子位報道 | 公眾號 QbitAI

新鮮程式碼，還熱乎著呢。

前幾天，谷歌釋出了一篇論文，介紹了一個超強的NLP預訓練模型BERT。

不僅在SQuAD中摧枯拉朽，全面超越人類表現，還在多種不同NLP測試中創出最佳成績，包括包括將GLUE基準提升7.6%，將MultiNLI的準確率提提升5.6%。

更重要的是，論文中稱，這個預訓練語言模型可用於任何NLP任務，整個過程不需要對架構進行實質性的修改。

有人說這是自然語言理解領域幾個月來最重大的事件，也有一些人認為這將改變NLP的研究模式。

當然，也有不少人心裡長滿了“草”，都想上手試試這個模型怎麼樣。

現在，方法來了。

一位名叫Junseong Kim韓國小哥哥，在GitHub上分享了自己用Pytorch實現BERT的過程與程式碼。

640?wx_fmt=jpeg

Junseong Kim表示，程式碼很簡單，而且也易於理解，其中一些程式碼基於The Annotated Transformer，但尚未得到驗證。

The Annotated Transformer來自“Attention is All You Need”，是哈佛大學的一個研究團隊對後者的解讀與實現，連結在文末。

語言模型預訓練

在谷歌的論文中，作者給出了兩種針對語言模型進行預訓練的任務，分別是Masked Language Model（論文中簡稱Masked LM）和預測下一句。

Masked LM

Input Sequence  : The man went to [MASK] store with 
 [MASK] dog
Target Sequence :                  the                his

規則：

根據下面的子規則，隨機改變15％的輸入token：

1、80%的 token 將成為 [MASK] token。

2、10% 的 token 將成為 [RANDOM] token（另一個單詞）。

3、10% 的 token 將維持不變，但是需要預測。

預測下一句

Input : [CLS] the man went to the store [SEP] he bought a gallon of milk [SEP]
Label : Is Next

Input = [CLS] the man heading to the store [SEP] penguin [MASK] are flight ##less birds [SEP] 

Label = NotNext

“當前的這個句子能夠和下一句聯絡起來嗎？”

理解兩個文字句子之間的關係，這無法通過語言建模直接獲取。

規則：

1、下一句有 50% 的概率是連續的句子。

2、下一句有 50% 的概率是無關的句子。

使用

注意：你的語料庫中，一行中要準備兩個句子，中間用 (\t) 分隔符隔開。

Welcome to the \t the jungle \n
I can stay \t here all night \n

1、根據自己的語料庫構建vocab

python build_vocab.py -c data/corpus.small -o data/corpus.small.vocab

usage: build_vocab.py [-h] -c CORPUS_PATH -o OUTPUT_PATH [-s VOCAB_SIZE]
                      [-e ENCODING] [-m MIN_FREQ]

optional arguments:
  -h, --help            show this help message and exit
  -c CORPUS_PATH, --corpus_path CORPUS_PATH
  -o OUTPUT_PATH, --output_path OUTPUT_PATH
  -s VOCAB_SIZE, --vocab_size VOCAB_SIZE
  -e ENCODING, --encoding ENCODING
  -m MIN_FREQ, --min_freq MIN_FREQ

2、用自己的語料庫構建BERT訓練資料集

python build_dataset.py -d data/corpus.small -v data/corpus.small.vocab -o data/dataset.small

usage: build_dataset.py [-h] -v VOCAB_PATH -c CORPUS_PATH [-e ENCODING] -o
                        OUTPUT_PATH

optional arguments:
  -h, --help            show this help message and exit
  -v VOCAB_PATH, --vocab_path VOCAB_PATH
  -c CORPUS_PATH, --corpus_path CORPUS_PATH
  -e ENCODING, --encoding ENCODING
  -o OUTPUT_PATH, --output_path OUTPUT_PATH

3訓練你自己的BERT模型

python train.py -d data/dataset.small -v data/corpus.small.vocab -o output/

usage: train.py [-h] -d TRAIN_DATASET [-t TEST_DATASET] -v VOCAB_PATH -o
                OUTPUT_DIR [-hs HIDDEN] [-n LAYERS] [-a ATTN_HEADS]
                [-s SEQ_LEN] [-b BATCH_SIZE] [-e EPOCHS]

optional arguments:
  -h, --help            show this help message and exit
  -d TRAIN_DATASET, --train_dataset TRAIN_DATASET
  -t TEST_DATASET, --test_dataset TEST_DATASET
  -v VOCAB_PATH, --vocab_path VOCAB_PATH
  -o OUTPUT_DIR, --output_dir OUTPUT_DIR
  -hs HIDDEN, --hidden HIDDEN
  -n LAYERS, --layers LAYERS
  -a ATTN_HEADS, --attn_heads ATTN_HEADS
  -s SEQ_LEN, --seq_len SEQ_LEN
  -b BATCH_SIZE, --batch_size BATCH_SIZE
  -e EPOCHS, --epochs EPOCHS

GitHub傳送門：

https://github.com/codertimo/BERT-pytorch

The Annotated Transformer傳送門：

http://nlp.seas.harvard.edu/2018/04/03/attention.html

— 完 —

加入社群

量子位AI社群開始招募啦，歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話介面回覆關鍵字“交流群”，獲取入群方式；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號（QbitAI）對話介面回覆關鍵字“專業群”，獲取入群方式。（專業群稽核較嚴，敬請諒解）

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話介面，回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

韓國小哥哥用Pytorch實現谷歌最強NLP預訓練模型BERT | 程式碼

乾明編譯整理自 GitHub 量子位報道 | 公眾號 QbitAI新鮮程式碼，還熱乎著呢。前

谷歌官宣：全面超越人類的最強NLP預訓練模型BERT開源了！

來源 | Google Research GitHub 編譯 | 無明、Natalie 編輯 | Natalie AI 前線導讀：近日，谷歌 AI 的一篇 NLP 論文引起了社群極大的關注與討論，被認為是 NLP 領域的極大突破。谷歌大腦研究科學家 Thang Luong Twitter 表示，這項

谷歌最強NLP模型BERT如約開源，12小時GitHub標星破1500，即將支援中文

夏乙曉查乾明問耕發自凹非寺量子位報道 | 公眾號 QbitAI BERT終於來了！今天，谷歌研究團隊終於在GitHub上釋出了萬眾期待的BERT。程式碼放出不到一天，就已經在GitHub上獲得1500多星。專案地址：https://github.com/go

PyTorch學習系列(十五)——如何載入預訓練模型？

PyTorch提供的預訓練模型 PyTorch定義了幾個常用模型，並且提供了預訓練版本： AlexNet: AlexNet variant from the “One weird trick” paper. VGG: VGG-11, VGG-13, VGG

Pytorch 快速入門（七）載入預訓練模型初始化網路引數

在預訓練網路的基礎上，修改部分層得到自己的網路，通常我們需要解決的問題包括： 1. 從預訓練的模型載入引數 2. 對新網路兩部分設定不同的學習率，主要訓練自己新增的層 PyTorch提供的預訓練模型PyTorch定義了幾個常用模型，並且提供了預訓練版本：AlexNet: Al

placeholder怎樣用IE和谷歌上顯示統一內容

blog 按鈕 xpl font 自定義工具欄用戶 logs div 啟動 placeholder怎樣用IE和谷歌上顯示統一內容擊“開始”菜單中的“運行”命令，並在其對話框中輸入“gpedit.msc”命令，進入“組策略”操作窗口。　　在“組策略”左操作窗口中依次

iPhone用戶起訴谷歌侵犯隱私索賠近43億美元

提交 char googl nta 出版物律師 double con cli 據AppleInsider北京時間5月22日報道，針對谷歌繞過iPhone防止Web追蹤工具的一起英國訴訟，有440萬人列為原告，將要求谷歌賠償至多32億英磅（42.9億美元）。 http://

用pytorch實現多層感知機（MLP)（全連線神經網路FC）分類MNIST手寫數字體的識別

1.匯入必備的包 1 import torch 2 import numpy as np 3 from torchvision.datasets import mnist 4 from torch import nn 5 from torch.autograd import Variable 6

selenium+python實現谷歌頁面開啟-自動化第一步

1python和selenium環境配置完成 2需要下載對應的谷歌瀏覽器版本的chromedriver 3將下載的chromedriver解壓之後放在python安裝的根目錄下面 4程式碼編寫如： from selenium import webdriver driver

關於CSS中用“rem" 在谷歌瀏覽器下的問題

rem是css3新定義的設定字型大小屬性，常用的兩種字型大小設定有下面2種：1、 px為單位2、em為單位(百分比用法跟em類似) PX為單位在Web頁面初期製作中，我們都是使用“px”來設定我們的文字，因為他比較精確和固定。只要頁面某元素設定了px字型大小，其子

用pytorch實現GAN——mnist（含有全部註釋和網路思想）

#coding=utf-8 import torch.autograd import torch.nn as nn from torch.autograd import Variable from torchvision import transforms from torchvision impo

用pytorch實現預訓練網路的finetune

繼續熟悉pytorch，發現的確比TensorFlow好用，在官網finetune教程的基礎上進行了大幅修改，主要是熟悉了pytorch自帶的Dataset和DataLoader類。 # -*- coding: utf-8 -*- import os, torch, g

自己動手實現谷歌網頁指紋計算方法

需求由於最近網頁庫越來越大，搜尋到的結果經常遇到重複，並且結合新聞搜尋的需求，需要計算出哪些新聞是被轉載的。因此最近開始尋求一個比較好的網頁指紋計算方案。經過一番調查，發現谷歌的網頁指紋計算方法simhash方法比較實用。於是在搞清楚理論的基礎上，動手實現一下這個演算法

java 後臺如何實現谷歌訊息推送

第一步：申請GOOGLE 訊息推送 KEY 第二步： 1、配置請求路徑和KEY 2、寫請求方法 import java.io.IOException; import org.apache.http.HttpEntity; import org.apache.http.c

Net Core 實現谷歌翻譯ApI 免費版

display rst 助手 dto 獲取 ice image htm bsp 原文:Net Core 實現谷歌翻譯ApI 免費版　　由於谷歌翻譯官方API是付費版本，本著免費和開源的精神。分享一下用 Net Core 實現谷歌翻譯API的代碼。項目引用的Nuge

用pytorch實現一個神經網路（一）

對於影象資料的resize問題： pytorch裡有幾種resize資料的方法： 1.torchvision.transforms.Resize：這個我始終沒用成，好像是伺服器上安裝的anacond

和小哥哥一起刷洛谷(1)

最小公倍數 memset actor 插入 tor clas 插入代碼 c++ 英文小哥我是編程愛好者，正在學習摸索中，此文就是我最近編的代碼以及編程中的思路，易錯點等心得體會。今天小哥我作為cpp黨就來帶大家刷幾道很有意思的題目。由於微信不支持插入代碼，只能用mar

和小哥哥一起刷洛谷(8) 圖論之Floyd“算法”

關於 str 目前算法無限最短一個端點更新關於floyd floyd是一種可以計算圖中所有端點之間的最短的“算法”，其偽代碼如下： for(所有起點i) for(所有終點j) 如果i=j: i到j最短路設為0 如果i與j

NodeJs程式碼除錯1（inspector+chrome）實現谷歌瀏覽器除錯後臺nodejs程式碼

注：nodejs6.3版本以後已經內建的除錯模組，不需要再安裝node-inspector等等。直接node --inspect-brk demo.js即可環境：node 10、谷歌瀏覽器參照：https://segmentfault.com/a/1190000012155

用selenium開啟谷歌瀏覽器提示 chromedriver.exe停止執行

用selenium進行web頁面自動化測試時，前段時間還測試得好好的，今天用selenium開啟谷歌瀏覽就提醒chromedriver.exe停止執行。突然想到前段時間系統幫我自動更新了瀏覽器版本。解

韓國小哥哥用Pytorch實現谷歌最強NLP預訓練模型BERT | 程式碼

乾明 編譯整理自 GitHub 量子位 報道 | 公眾號 QbitAI

語言模型預訓練

Masked LM

預測下一句

使用

1、根據自己的語料庫構建vocab

2、用自己的語料庫構建BERT訓練資料集

3訓練你自己的BERT模型

相關推薦

乾明編譯整理自 GitHub
量子位報道 | 公眾號 QbitAI