斯坦福CS224n NLP課程【十六】——用於回答問題的動態神經網路

阿新 • • 發佈：2020-10-18

是否將所有NLP任務都可視作QA？

舉例：

在old-school NLP系統中，必須手工整理一個“知識庫”；然後在這個知識庫上做規則推斷。這節課介紹的DMN完全不同於這種方法，它能夠直接從問答語料中學習所有必要的知識表達。

DMN還可以在問答中做情感分析、詞性標註和機器翻譯。所以構建一個joint model用於通用QA成為終極目標。

但是實現這個目標，有兩個障礙

1.沒有任何已有研究探討如何讓單個模型學習各種不同的任務。每種任務都有獨特的特點，適合不同的神經網路去實現

2.Fully joint multitask learning（同一個decoder/classifier，不僅僅共享詞向量，而應該共享全部引數）非常困難。有些不成功的研究發現，只能在低層（詞向量）共享引數、如果任務之間沒有直接關聯則會顧此失彼。

DMN今天介紹的DMN僅僅解決了第一個問題。雖然有些超引數還是得因任務而異，但總算是個通用的架構了。

回答難題：假設有個閱讀理解題目

你無法記住全文，但看了問題之後，只要帶著問題掃幾眼原文，你就能找出答案。這種現象啟發了DMN。

首先對整個框架有所瞭解：

左邊輸入input的每個句子每個單詞的詞向量，送入input module的GRU中。同樣對於Question Module，也是一個GRU，兩個GRU可以共享權值。

Question Module計算出一個Question Vectorq，根據q應用attention機制，回顧input的不同時刻。根據attention強度的不同，忽略了一些input，而注意到另一些input。這些input進入Episodic Memory Module，注意到問題是關於足球位置的，那麼所有與足球及位置的input被送入該模組。該模組每個隱藏狀態輸入Answer module，softmax得到答案序列。

有人問DMN能否學會新型別的問題，答案是否定的。Episodic Memory Module中有兩條線，分別代表帶著問題q第一次閱讀input的記憶，以及帶著問題q第二次閱讀的記憶。

講各個模組的細節：

The Modules: input

輸入模組接受T_I個輸入單詞，輸出T_C個“事實”的表示。如果輸出是一系列詞語，那麼有T_C=T_I；如果輸出是一系列句子，那麼約定T_C表示句子的數量，T_I表示句子中單詞的數量。我們使用簡單的GRU讀入句子，得到隱藏狀態h_t=GRU(x_t,h_t−1)，其中x_t=L[w_t]，L是embedding matrix，w_t是時刻t的詞語。

事實上，還可以將這個Uni-GRU升級為Bi-GRU：每個fact被表示為雙向隱藏狀態的拼接。

The Modules :Question

同樣用一個標準的GRU讀入問題，同樣的embedding matrixL，得到最後一個隱藏狀態qt=GRU(L[w(^Q)_t],q_t−1)。

The Modules: Episodic Memory

其中，episodic memory representation 初始化為m_0=q，並通過 GRU處理:m_i=GRU(e_i,mi−1)。而 episode representation 使用input module的隱藏狀態輸出更新：

其中g是 attention mechanism，有多種計算方式。在最初的DMN paper (Kumar et al. 2016)中，驗證了下列公式是最好的：

這裡最重要的是z的計算，通過句子向量、問題向量、上一個記憶向量之間原始形式與element-wise乘積（相似性）的按行拼接，得到一個超長的列向量。然後非線性啟用傳播一層，softmax得到g，表示每次閱讀對每個時刻（句子）的關注程度。

Richard說最初他們還嘗試過q^T*W_s，後來發現並沒有什麼幫助。他的忠告是，如果模型中有多餘的部分，那就去掉。

這裡兩條線代表兩個GRU，閱讀兩遍。這也是個超引數。Richard說最開始多個pass的Memory也通過GRU合併，後來發現只留兩個pass直接視作兩層神經網路也能解決問題，能簡單就不要複雜。

The Modules :Answer

answermodule就是一個簡單的GRU decoder，接受上次輸出的單詞（應該是one-hot向量），以及episodic memory，輸出一個單詞：

相關工作

有很多已有工作做了類似研究：

與DMN聯絡密切的是後面兩篇論文，都有Memory Component。

與MemNets比較：

相同點：

都有input, scoring, attention and response模組

不同點：

Mem Nets主要使用詞袋，然後有一些embedding去encode位置

Mem Nets迭代執行attention和response

這些不同點都是由於Mem Nets是個非sequence模型造成的。而DMN是個血統純正的neural sequence model，天然適合序列標註等任務，比Mem Nets應用範圍更廣。

DMN的sequence能力來自GRU，雖然一開始用的是LSTM，後來發現GRU也能達到相同的效果，而且引數更少。

結果：

QA：

這是一個自動生成的QA語料庫，裡面都是一些簡單的問答。部分NLP學者很厭惡機器生成的語料，但如果連機器生成的語料都無法解決，何談解決真實的複雜問題。

情感分析：

依然拿到最高分數。此時問題永遠是相同的，其向量是固定的。遺憾的是，對於不同的任務，超引數依然必須不同才能拿到最佳結果。

Episodes數量

其中task 3是三段論，理論只需要3個pass，但模型依然需要5個。考慮到這是個end to end訓練，沒有監督訊號指示那些fact是重要的，所以這個表現還挺好。情感分析的N/A是因為，計算複雜度實在太高了。分數已經在降低，所以乾脆沒跑。

情感分析的例子：

顏色越深代表模型的attention越強烈。如果只跑一個pass，則模型無法得到整個句子的全文，所以將過多的注意力放到無關緊要的貶義詞上。

另一些類似的例子：

詞性標註：

雖然0.06%的提升不算什麼，但考慮到這是一個通用的模型，感覺是非常棒的。

VQA 視覺問題回答：

任何任務都可視作QA任務，所以這個模型也適用於VQA，只需將處理文字的輸入模組替換為處理影象的輸入模組：

輸入模組：

由於卷積特徵並不是序列的，所以輸入模組的輸出特徵只是所有時刻隱藏狀態向量的拼接。

結果很不錯然後就拿到了最高分：

attention視覺化：

越亮代表越注意，可以發現模型的確在注意問題相關的部分：

在一些較難的問題上也能較為滿意地回答：

比如模型認為女孩穿的是短褲，但問女孩的短裙是什麼顏色，它也能知道是白色。這說明模型很健壯。雖然一些問題回答得不好，但Richard認為只是資料量不夠的原因

總結：

大部分NLP任務都可視作QA

DMN可以解決多種QA任務

還有可以在問題上也做attention的Dynamic Co-attention Networks

斯坦福CS224n NLP課程【十六】——用於回答問題的動態神經網路

是否將所有NLP任務都可視作QA？舉例：在old-school NLP系統中，必須手工整理一個“知識庫”；然後在這個知識庫上做規則推斷。這節課介紹的DMN完全不同於這種方法，它能夠直接從問答語料中學習所有必要的

斯坦福CS224n NLP課程【十四】——樹RNN遞迴和短語句法分析

語言光譜模型對於語義相似性等這類目標來說，最好的方法還是詞袋最簡陋最常用的是詞袋模型，或“詞向量袋模型”。最複雜的可能是短語結構樹，額外再標註一些諸如指代、語義等標籤。

邱錫鵬神經網路與深度學習課程【十六】——深度信念網路

玻爾茲曼機：是一種特殊的概率無向圖模型如何推斷？因為分配函式Z通常都比較難以計算所以採用Gibbs取樣

邱錫鵬神經網路與深度學習課程【十五】——概率圖模型2和3

學習：引數學習：給定一組訓練樣本，求解模型引數進行引數估計有向圖：在貝葉斯網路中，所有變數x的聯合概率分佈可以分解為每個隨機變數x_k的區域性條件概率的連乘形式

Locust 進階應用：WebSocket 協議測試【十六】

Locust 預設支援 HTTP 協議（預設通過 HttpUser 類），我們也可以自行實現任意協議的 Client 對它 User 類進行繼承（HttpUser 也是繼承自 User）並增加所需要的方法，這樣也就實現了任意協議的壓測。

【預測模型】基於matlab BP神經網路氣溫預測【含Matlab原始碼 714期】

一、簡介 1 概述 BP（Back Propagation）神經網路是1986年由Rumelhart和McCelland為首的科研小組提出，參見他們發表在Nature上的論文 Learning representations by back-propagating errors 。

【預測模型】基於matlab BP神經網路混凝土強度預測【含Matlab原始碼 695期】

一、簡介 1 概述 BP（Back Propagation）神經網路是1986年由Rumelhart和McCelland為首的科研小組提出，參見他們發表在Nature上的論文 Learning representations by back-propagating errors 。

【預測模型】基於matlab BP神經網路短時交通流預測【含Matlab原始碼 687期】

一、簡介 1 概述 BP（Back Propagation）神經網路是1986年由Rumelhart和McCelland為首的科研小組提出，參見他們發表在Nature上的論文 Learning representations by back-propagating errors 。

【預測模型】基於matlab BP神經網路鋰電池健康狀態預測【含Matlab原始碼 688期】

一、簡介 1 概述 BP（Back Propagation）神經網路是1986年由Rumelhart和McCelland為首的科研小組提出，參見他們發表在Nature上的論文 Learning representations by back-propagating errors 。

【預測模型】基於matlab BP神經網路預測CPI指數【含Matlab原始碼 662期】

一、簡介 1 概述 BP（Back Propagation）神經網路是1986年由Rumelhart和McCelland為首的科研小組提出，參見他們發表在Nature上的論文 Learning representations by back-propagating errors 。

【房價預測】基於matlab Elman神經網路房價預測【含Matlab原始碼 589期】

一、簡介 1 Elman網路特點 Elman神經網路是一種典型的動態遞迴神經網路，它是在BP網路基本結構的基礎上，在隱含層增加一個承接層，作為一步延時運算元，達到記憶的目的，從而使系統具有適應時變特性的能力，增強了網

【Java提高十六】集合List介面詳解

在編寫java程式中，我們最常用的除了八種基本資料型別，String物件外還有一個集合類，在我們的的程式中到處充斥著集合類的身影！java中集合大家族的成員實在是太豐富了，有常用的ArrayList、HashMap、HashSet，也有不

Bootstrap4.x學習筆記【十一】

　　　　按鈕和按鈕組一、按鈕樣式 1.使用.btn 和.btn-*實現按鈕的預設樣式；.btn 不單單在<button>元素下使用，也可以在<a>、<input>下使用

Bootstrap4.x學習筆記【十二】

　　　　　　內容擴充套件管理器——卡片卡片是一個內容擴充套件管理器，可以包含圖片、列表、文字、連結等多種組合

MySQL進階【十二】—— 深挖Innodb事務的多版本控制（MVCC）的實現原理

什麼是多版本控制多版本併發控制（Multi-Version Concurrency Control）是MySQL的InnoDB引擎實現隔離級別的一種具體方式。用於實現提交讀和可重複讀。

MySQL進階【十一】—— Innodb 事務的兩階段提交

兩階段提交是什麼 prepare階段：此階段innodb將事務 trx_id洗入redo_log，將事務狀態置為prepare狀態commit階段：

【C++】【十一】二叉樹遞迴遍歷與非遞迴遍歷的實現及思路

此文轉載自：https://my.oschina.net/u/4260285/blog/4755128 大咖揭祕Java人都栽在了哪？點選免費領取《大廠面試清單》，攻克面試難關~>>>

SpringCloud學習筆記【十二】SpringCloud Config服務配置

目錄本篇要點分散式系統面臨的問題Spring Cloud Config是什麼SpringCloud Config的作用SpringCloud Config整合Git搭建配置總控中心在Gitee上新建倉庫，並上傳檔案新建工程，引入依賴配置yml報錯！Auth fail主啟動類加

SpringCloud學習筆記【十四】：Spring Cloud Stream訊息驅動

目錄本篇要點Spring Cloud Stream概述設計思想標準的MQSpring Cloud StreamAPI及常用註解Spring Cloud Stream演示前置條件訊息驅動之生產者引入pom依賴配置yml主啟動類定義訊息的推送管道定義介面測試訊息驅動之消費

【十二】【vlc-anroid】視訊影象display展示層模組原始碼分析-OpenGL ES2互動渲染

技術標籤：【音視訊】【vlc-android】vlcopengl 接著第十章節分析。本章節分析openGL預設展示方式。