論文閱讀：《神經機器翻譯和序列對序列模型：一個教程》中

阿新 • • 發佈：2019-02-18

4 對數線性語言模型

本節討論另一種語言模型：對數線性語言模型。它的計算方法跟上面提到的基於計數的語言模型很不同。

4.1 模型公式化

對數線性語言模型也是計算給定前幾個詞的條件下下一個詞的條件概率，但是方法不一樣，基本分為以下幾步：

計算特徵：對數線性語言模型圍繞特徵這個概念。特徵是“上下文中某個對預測下一個詞有用的東西”。更精確地，我們定義一個特徵函式ϕ(et−1t−n+1)，以上下文為輸入，輸出一個實值特徵向量x∈ℝN來用N個特徵描述上下文。

計算得分：有了特徵向量之後，我們就要用它預測每個單詞的概率。為此，我們計算一個得分向量s∈

ℝ|V|對應每個詞的似然。我們用模型引數W∈ℝ|V|×N,b∈ℝN來計算得分向量：
s=Wx+b

計算概率：把得分向量轉換成概率向量：
p=softmax(s)

解讀：p表示了在上下文et−1t−n+1之後，每個詞出現的概率。p本身是長度為|V|的向量，向量裡的值表示相應位置的詞出現的概率。每個詞都有一個index，這個index跟p的index相對應。

4.2 學習模型引數

首先我們要定義損失函式l，一個表達我們在訓練資料上做的有多差的函式。大多數情況下，我們假設這個損失等於負對數似然：

l(εtest;θ)=−logP(εtest⎪θ)=−

∑E∈εtrainlogP(E⎪θ)

解讀：這裡的引數不再是P(et⎪et−1t−n+1)，而是W,b。不同的引數得到不同的損失，我們要通過訓練找到那個使損失最小的引數。比如，我們要計算一個句子E的損失，就計算引數對於E的負對數似然。通過之前的 計算概率 公式依次計算E的分句的條件概率，再用鏈式法則計算引數對於E的似然P(E⎪θ)，相應也得到了負對數似然。

用隨機梯度下降更新引數。為了要保證訓練過程穩定，還有其他東西要考慮：

調整學習率：一開始學習率比較大，然後逐漸減少。

早停：通常會留出一個開發集(驗證集)，在這個集上測量對數似然，然後保留那個最大對似然的模型。這是為了防止過擬合。另一個防止過擬合的辦法是當開發集上的對數似然停止提高的時候減小學習率。

洗牌順序：有的時候順序有所偏向，為了防止最後訓練的模型更貼合結尾部分的資料，我們需要把整個資料訓練的順序洗牌。

4.3 對數線性模型的導數

略

4.4 語言模型的其他特徵

對數線性模型好的原因是它允許我們靈活地選擇我們認為對預測下一個詞有用的特徵，包括：

上下文特徵：如之前所說。

上下文類：把相似的詞歸為一類。

詞字尾特徵：比如ing。

詞袋特徵： 跟只用句子裡前n個詞相反，我們可以用之前所有的詞，然後不顧順序。這樣我們會損失排列資訊，但是會知道哪些詞會一同出現。

5 神經網路和前饋語言模型

略

6 迴圈神經網路語言模型

6.1 - 6.4 略

6.5 Online, Batch, and Minibatch Training

對於每一個樣例進行引數更新的學習叫做online學習。與之相反，batch學習將整個訓練集視為單個單元，計算這個單元的梯度，然後在遍歷所有資料之後進行引數更新。

這兩個更新策略各有權衡：

online學習更快地找到一個好的答案。

訓練結束後，batch學習更穩定，因為它不受最後看見的資料的影響。

batch學習更容易陷入區域性最優解。online學習的隨機性使得模型能夠跳出區域性最優，找到一個全域性最優。

minibatching是以上兩者的折中。minibatching每次計算n個訓練樣例的梯度。

論文閱讀：《神經機器翻譯和序列對序列模型：一個教程》中

4 對數線性語言模型本節討論另一種語言模型：對數線性語言模型。它的計算方法跟上面提到的基於計數的語言模型很不同。 4.1 模型公式化對數線性語言模型也是計算給定前幾個詞的條件下下一個詞的條件概率，但是方法不一樣，基本分為以

AlphaGo論文的譯文，用深度神經網路和樹搜尋征服圍棋：Mastering the game of Go with deep neural networks and tree search

前言：圍棋的英文是 the game of Go，標題翻譯為：《用深度神經網路和樹搜尋征服圍棋》。譯者簡介：大三，211，電腦科學與技術專業，平均分92分，專業第一。為了更好地翻譯此文，譯者查看了很多資料。譯者翻譯此論文已盡全力，不足之處希望讀者指出

圖解機器學習：神經網路和 TensorFlow 的文字分類

開發人員經常說，如果你想開始機器學習，你應該首先學習演算法。但是我的經驗則不是。我說你應該首先了解：應用程式如何工作。一旦瞭解了這一點，深入探索演算法的內部工作就會變得更加容易。那麼，你如何開發直覺學習，並實現理解機器學習這個目的？一個很好的方法是建立機器學習模型。假設

【學習日記】吳恩達深度學習工程師微專業第一課：神經網路和深度學習

以下內容是我聽吳恩達深度學習微專業第一課做的學習筆記，主要是按自己的理解回答一些問題，並非全部出自課程內容。1. 什麼是神經網路？神經網路是諸多機器學習方法中的一種，受人類大腦工作方式的啟發而發明的。人類大腦的一個神經元通過多個樹突來接收來自不同神經元的訊號，接著細胞核處理訊

【論文筆記】張航和李沐等提出：ResNeSt: Split-Attention Networks（ResNet改進版本）

github地址：https://github.com/zhanghang1989/ResNeSt 論文地址：https://hangzhang.org/files/resnest.pdf 核心就是：Split-attention blocks 先看一組圖： ResNeSt在影象分

JS--bom對象：borswer object model瀏覽器對象模型

appname 上一個表示 ref 下一個得到 set rom con bom對象：borswer object model瀏覽器對象模型 navigator獲取客戶機的信息（瀏覽器的信息） navigator.appName;獲得瀏覽器的名稱 wind

BOM：Browser Object Model(瀏覽器對象模型)

t對象文檔工具條 obj 任務欄不包含方法 navig 任務 1、window對象 2、navigator對象3、 screen對象4、history對象5、 location對象6、 document對象 window對象1、屬性 * pageXOffset:頁面

#圖文詳解：從實際和理論出發，帶你瞭解Java中的多執行緒

這裡並沒有講什麼新東西，只是把多執行緒一些知識來個總結。大家懂得可以複習複習，還有些童鞋對多執行緒朦朧的可以拿這個做為入門~ 舉個栗子說明啥是多執行緒：玩遊戲，前面一堆怪，每個怪都是一個執行緒，你射了一槍，子彈飛出去了，這顆子彈也是一個執行緒。你開啟你的程序管理，看到你遊戲的後臺程序，這就是程序

《CSS3實戰》筆記--溢位文字省略：text-overflow和文字換行顯示：word-wrop

通過閱讀和學習書籍《CSS3實戰》總結《CSS3實戰》/成林著.—北京機械工業出版社2011.5 語法： text-overflow：clip | ellipsis | ellipsis-word 取值簡單說明： clip屬

SharePoint 2016：效能優化和高可用（十一，SP中的WEB內容管理功能）

SHAREPOINT SERVER 2016中的WEB內容管理功能根據SharePoint MPP 課程，下面幾個文章介紹，SP16 效能優化和高可用的下一部分，Web內容管理功能。 SharePoint Server 2016中的Web內容管理包含用於配置，自定義，優

R語言：EM演算法和高斯混合模型的R語言實現

本文我們討論期望最大化理論，應用和評估基於期望最大化的聚類。軟體包install.packages("mclust");require(mclust)## Loading required package: mclust## Package 'mclust' version

TensorFlow學習系列（三）：儲存/恢復和混合多個模型

這篇教程是翻譯Morgan寫的TensorFlow教程，作者已經授權翻譯，這是原文。目錄在學習這篇部落格之前，我希望你已經掌握了Tensorflow基本的操作。如果沒有，你可以閱讀這篇入門文章。為什麼要

Pro Android學習筆記（二五）：使用者介面和控制（13）：LinearLayout和TableLayout

佈局Layout Layout是容器，用於對所包含的view進行佈局。layout是view的子類，所以可以作為view嵌入到其他的layout中。Android的layout有LinearLayout、TableLayout，RelativeLayout、FrameLayout、GridLayout。線

TensorFlow：儲存/恢復和混合多個模型

這篇教程是翻譯Morgan寫的TensorFlow教程，作者已經授權翻譯，這是原文目錄在學習這篇部落格之前，我希望你已經掌握了Tensorflow基本的操作。如果沒有，你可以閱讀這篇入門文章。為什麼要學習模型的儲存和恢復呢？因為這對於避免資料的混亂無序是至關重要的，特別是在你程式碼中的不同圖。

Mybaits 原始碼解析（十一）----- 設計模式精妙使用：靜態代理和動態代理結合使用：@MapperScan將Mapper介面生成代理注入到Spring

上一篇文章我們講了SqlSessionFactoryBean，通過這個FactoryBean建立SqlSessionFactory並註冊進Spring容器，這篇文章我們就講剩下的部分，通過MapperScannerConfigurer將Mapper介面生成代理注入到Spring 掃描Mapper介面我們上一

安卓自定義日期和時間選擇器，在一個佈局中，可以直接呼叫

廢話不多說先看效果，效果不符合，就不要用看了。安卓提供自己的日期選擇和時間選擇，但是樣式並不是自己想要的，如果非要把他們放在一起，會發現，樣式不好看，而且時間和日期選擇控制元件的大小不好控制，甚至根本沒法放在一行上，所以實現自定義日期時間選擇器有兩種方式 1.自己寫自定

Python基礎課：定義一個函數，可以對序列逆序的輸出（對於列表和元組可以不用考慮嵌套的情況）

int 情況 type spa list bsp pri not log 1 15 def fun(arg): 2 16 if type(arg) is not tuple 3 17 and type(arg) is not str 4 18

【論文閱讀筆記3】序列模型入門之LSTM和GRU

本文只是吳恩達視訊課程關於序列模型一節的筆記。參考資料：吳恩達深度學習工程師微專業之序列模型博文——理解LSTM 吳恩達本來就是根據這篇博文的內容來講的，所以個人認為認真學習過吳恩達講的那個課程後可以不用再看那篇博文了，能獲得的新的知識不多，另外網上的博文基本也都是根據那篇

論文閱讀9：在自適應輔導系統中保持和測量ZPD

參考論文：Toward Measuring and Maintaining the Zone of Proximal Development in Adaptive Instructional Systems 圖片出不來，請參見我的知乎連線：https://zhuanlan.zhihu.com/

論文閱讀-為什麼深度卷積神經網路對小目標的變換泛化效果很差？

論文地址： Why do deep convolutional networks generalize so poorly to small image transformations? 1. 摘要該論文發現，現代深度卷積神經網路在影象中的小目標發生平移後對其類別的判斷會產

論文閱讀：《神經機器翻譯和序列對序列模型：一個教程》中

4 對數線性語言模型

4.1 模型公式化

4.2 學習模型引數

4.3 對數線性模型的導數

4.4 語言模型的其他特徵

5 神經網路和前饋語言模型

6 迴圈神經網路語言模型

6.5 Online, Batch, and Minibatch Training

相關推薦