【論文翻譯】DialogueCRN: Contextual Reasoning Networks for Emotion Recognition in Conversations

阿新 • • 發佈：2021-09-15

DialogueCRN：會話中情感識別的上下文推理網路

作者：Dou Hu, Lingwei Wei, Xiaoyong Huai

原文地址：DialogueCRN: Contextual Reasoning Networks for Emotion Recognition in Conversations

注意：全文有部分機翻內容，沒來得及校對和理解，很抱歉。

翻譯幫助：百度翻譯

DialogueCRN：會話中情感識別的上下文推理網路

摘要

對話中的情感識別（ERC）在開發移情機器領域中越來越受到重視。最近，許多方法都致力於用深度學習模型發掘對話的上下文。但是這些方法由於缺少提取和整合情感線索的能力而在理解上下文方面有缺陷。本篇論文，我們提出了新的上下文推理網路（DialogueCRN）從認知的角度來充分理解對話上下文。受到情緒認知理論的啟發，我們設計了一個多輪推理模組去提取和整合情緒線索。推理模組迭代地執行一個直觀的檢索過程和一個有意識的推理過程，去模仿人類獨特的認知思維。

1 介紹

對話中的情感識別（ERC）旨在檢測說話人在對話中的每個話語中的情緒。這個任務是一個很重要的課題，在開發移情機器（Zhou等人，2020^[1]）的很多領域包括社會意見挖掘（Kumar等人，2015^[2]）、智慧助手（Konig等人，2016^[3]）、醫療保健（Pujol等人，2019^[4]）等。

一個對話通常包含觸發當前話語情感的上下文線索（Poria等人，2019^[5]），比如原因或者情景。最近，關於ERC的基於上下文的研究（Poria等人，2017^[6];Hazarika等人，2018b^[7];Majumder等人，2019^[8]）致力於通過深度學習模型感知情境層面或說話人層面的上下文。然而這些方法對於理解那些包含很豐富的情緒線索的上下文不是很有效。我們認為它們主要面臨以下挑戰：

情感線索的提取

大部分方法（Hazarika等人，2018a^[9],b;Jiao等人，2020b^[10]）通常從靜態的記憶中檢索相關的上下文，這限制了它們捕獲更豐富的情感線索的能力。
情感線索的整合

很多研究（Majumder等人，2019^[8:1];Ghosal等人，2019^[11];Lu等人，2020^[12]）通常使用attention機制去整合編碼過的情感線索，卻無視掉它們內在的語義順序。這會失去線索之間的邏輯關係，使得捕獲觸發情感的關鍵因素變得困難。

《情緒認知理論（Cognitive Theory of Emotion）》（Schachter and Singer, 1962^[13]; Scherer等人，2001^[14]）認為認知因素對情緒狀態的形成具有潛在的決定作用。這些認知因素可以通過在我們的大腦中反覆執行直覺檢索過程和有意識的推理過程來捕捉。（Evans, 1984^[15], 2003^[16],2008^[17]; Sloman, 1996^[18]）受他們的啟發，本文試圖對兩個關鍵的過程進行建模，來推理情感線索並充分理解會話上下文。通過在認知階段遵循《工作記憶（working memory）》（Baddeley, 1992^[19]）中的機制，我們可以反覆執行這兩個認知過程來指導提取和整合情緒線索，從而模擬人類獨特的認知思維。

在本論文中，我們提出了新的上下文推理網路（DialogueCRN）通過充分理解對話上下文來辨別話語中的情感。該模型引入了一個認知階段，從通過感知階段檢索到的上下文中提取和整合情感線索。首先，在感知階段我們利用長短時記憶（LSTM）（Hochreiter and Schmidhuber, 1997^[20])網路去捕獲情境層面和說話人層面的上下文。基於這些上下文，可以獲取全域性記憶去儲存不同的上下文資訊。其次，在認知階段，我們可以設計多輪推理模組去反覆提取和整合情感線索。這個推理模組執行兩個程序，即直觀檢索過程和有意識推理過程。前者利用attention機制通過檢索全域性記憶去匹配上下文線索，來模仿人類的直觀檢索過程。後者採取LSTM網路學習內在邏輯順序，通過保留和更新動態工作記憶，來整合上下文線索。這模仿了人類的推理過程。它比較慢但是有人類獨特的推理力。（Baddeley, 1992^[19:1]）最後，根據上述情景層面和說話人層面的上下文線索，使用情感分類器預測話語的情感標籤。

為了評估所提出模型的表現，我們可以在三個公共基礎資料集上進行大量的實驗，即IEMOCAP資料集，SEMAINE資料集和MELD資料集。結果一致表明我們提出的模型明顯超過了被比較的方法。此外，從認知角度理解情緒線索可以提高情緒識別的表現。

這項工作主要的貢獻總結如下：

我們提出了新的上下文推理網路（DialogueCRN）從認知的角度來充分理解對話上下文。據我們所知，這是第一次嘗試探索對話中情緒識別的認知因素。
我們設計了一個多輪推理模組來提取和整合情緒線索，通過迭代地執行一個直觀的檢索過程和一個有意識的推理過程，去模仿人類獨特的認知思維。
我們在三個公共基礎資料集上進行大量的實驗。結果一致表明了本文所提出的模型的有效性和優越性。

2 研究方法

2.1 問題說明

形式上，讓 $U=[u_{1} ,u_{2},…,u_{N}]$ 成為一個對話，其中 $N$ 是話語的數量，並且有 $M$ 個說話者/組 $p_{1},p_{2},…,p_{M}(M\ge2)$ 。

每個話語 $u_{i}$ 是被說話者 $p_{\phi(u_{i})}$ 說出的，其中 $\phi$ 將話語索引對映到相應說話人的索引。

另外，對於每個 $\lambda \in [1,M]$ ，我們定義 $U_{\lambda}$ 作為被說話人 $p_{\lambda }$ 所說的話語，即

\[U_{\lambda}=\{u_{i}|u_{i}\in U 並且 u_{i} 被 p_{\lambda}說出,\forall i\in[1,N]\} \]

這個會話中的情緒識別（ERC）的任務旨在通過預定義的 $\Gamma$ 來預測每一個話語 $u_{i}$ 的情感標籤 $y_{i}$

2.2 文字特徵

卷積神經網路（CNNs）（Kim,2014^[21]）有從一個話語中捕獲n元資訊的能力。根據之前的作品（Hazarika等人，2018b^[7:1];Majumder等人，2019^[8:2];Ghosal等人，2019^[11:1]），我們利用一個使用最大池化（max-pooling）的CNN層來精確地從每個話語的轉錄本中提取上下文無關的文字特徵。具體來講，輸入是300維預訓練過的大小為840B 的Glo Ve向量（Pennington等人，2014^[22]）。我們使用三個大小分別為3、4和5的過濾器，每個過濾器具有50個特徵圖。這些特徵圖由最大池化（max-pooling）和ReLU啟用函式進一步處理（Nair和Hinton，2010^[23]）。之後，將這些啟用特徵連線起來，並最終投影到維度 $d_{u}=100$ 的密集層上。其輸出形成了一個話語的表達。我們令 $\{u_{i}\}_{i=1}^{N},u_{i}\in\mathbb{R} ^{d_{u}}$ 作為話語N的描述。

2.3 模型

接著，我們提出了上下文推理網路（DialogueCRN）來進行對話中的情感識別。DialogueCRN由三部分組成，分別是感知階段（2.3.1節）、認知階段（2.3.2節）和情感分類器（2.3.3節）。整體架構如圖1所示。

2.3.1 感知階段（Perception Phase）

在感知階段，基於輸入的文字特徵，我們首先生成情境層面或說話人層面的對話上下文描述。之後，獲得全域性記憶來儲存不同的上下文資訊。

對話上下文表述

長短時記憶（LSTM）（Hochreiter and Schmidhuber, 1997^[20:1]）介紹了遞迴神經網路中用來從輸入序列中捕獲長期依賴關係的門機制。在這一部分，利用兩個雙向LSTM來分別捕獲情景層面和說話人層面的上下文依賴。

為了在情景層面學習上下文，我們應用了一個雙向LSTM網路來捕獲同一個對話中相鄰兩個話語之間的次序依賴。輸入是每個話語的文字特徵 $u_{i}\in\mathbb{R} ^{d_{u}}$ 。情景層面的上下文表示為 $c_{i}^{s}\in\mathbb{R} ^{2d_{u}}$ ，有下列計算式：

\[c_{i}^{s},h_{i}^{s}=\overleftrightarrow{LSTM}^{s}(u_{i},h_{i-1}^{s}),\tag{1} \]

其中 $h_{i-1}^{s}\in\mathbb{R} ^{d_{u}}$ 是情景層面LSTM的第i層隱藏狀態。

為了在說話人層面學習上下文，我們使用另一個雙向LSTM來捕獲同一個說話人相鄰的話語的自依賴。給定每個話語的文字特徵 $u_{i}$ ，說話人級上下文表示 $c_{i}^{v}\in\mathbb{R} ^{2d_{u}}$ 由下式計算：

\[c_{i}^{v},h_{\lambda,j}^{v}=\overleftrightarrow{LSTM}^{v}(u_{i},h_{\lambda,j-1}^{v}),j\in[1,|U_{\lambda}|],\tag{2} \]

其中 $\lambda=\phi(u_{i})$ 。 $U_{\lambda}$ 指說話人 $p_{\lambda}$ 所說的所有話語。 $h_{\lambda,j}^{v}\in\mathbb{R} ^{d_{u}}$ 是說話人 $p_{\lambda}$ 的說話人層面LSTM的第j層隱藏狀態。

全域性記憶表述

基於上述的對話上下文表述，可以通過線性層獲得全域性記憶來儲存不同的上下文資訊。也就是說，情景層面上下文 $G^{s}=[g_{1}^{s},g_{2}^{s},…,g_{N}^{s}]$ 和說話人層面上下文 $G^{v}=[g_{1}^{v},g_{2}^{v},…,g_{N}^{v}]$ 的全域性記憶通過下式計算：

\[g_{i}^{s}=W_{g}^{s}c_{i}^{s}+b_{g}^{s},\tag{3} \]\[g_{i}^{v}=W_{g}^{v}c_{i}^{v}+b_{g}^{v},\tag{4} \]

其中 $W_{g}^{s},W_{g}^{v}\in\mathbb{R} ^{2d_{u}\times 2d_{u}},b_{g}^{s}b_{g}^{v}\in\mathbb{R} ^{2d_{u}}$ ，是可學習引數。

2.3.2 認知階段（Cognition Phase）

受到《情緒認知理論（Cognitive Theory of Emotion）》（Schachter and Singer, 1962^[13:1]; Scherer等人，2001^[14:1]）的啟發，認知因素對情緒狀態的形成具有潛在的決定作用。因此，在認知階段，我們設計了多輪推理模組來迭代地提取和整合情感線索。推理模組架構如圖2所示。

推理模組執行兩個過程，直觀檢索過程和有意識推理過程。在第t輪，對於推理過程，我們使用LSTM網路來學習內在邏輯次序並且整合上下文線索到工作記憶。這是比較慢的過程，但是有著人類獨特的推理力（Baddeley, 1992^[19:2]）。即：

\[\tilde{q} _{i}^{(t-1)},h_{i}^{(t)}=\overrightarrow{LSTM}(q_{i}^{(t-1)},h_{i}^{(t-1)}),\tag{5} \]

其中 $\tilde{q} _{i}^{(t-1)}\in\mathbb{R} ^{2d_{u}}$ 是輸出向量。 $q _{i}^{(t)}\in\mathbb{R} ^{4d_{u}}$ 由當前話語的上下文表示 $c_{i}$ 初始化，即， $q_{i}^{(0)}=W_{q}c_{i}+b_{q}$ ，其中， $W_{q}\in\mathbb{R} ^{4d_{u}\times2d_{u}},b_{q}\in\mathbb{R}^{4d_{u}}$ 是可學習引數。 $h_{i}^{(t)}\in\mathbb{R}^{2d_{u}}$ 指工作記憶，不僅可以儲存和更新之前的記憶 $h_{i}^{(t-1)}$ ，還可以指導下一輪線索的提取。在工作記憶的順序流動過程中，我們可以學習線索之間隱含的邏輯順序，這類似於人類的有意識思維過程。 $h_{i}^{(t)}$ 被初始化為0。t是指示為了計算最終狀態而執行多少“處理步驟”的索引。

對於檢索過程，我們運用了attention機制從全域性記憶中匹配相關的上下文線索。具體計算如下：

\[\mathbf{e}_{i j}^{(t-1)}=f\left(\mathbf{g}_{j}, \tilde{\mathbf{q}}_{i}^{(t-1)}\right)\tag{6} \]\[\alpha_{i j}^{(t-1)}=\frac{\exp \left(\mathbf{e}_{i j}^{(t-1)}\right)}{\sum_{j=1}^{N} \exp \left(\mathbf{e}_{i j}^{(t-1)}\right)}\tag{7} \]\[\mathbf{r}_{i}^{(t-1)}=\sum_{j=1}^{N} \alpha_{i j}^{(t-1)} \mathbf{g}_{j}\tag{8} \]

其中f是計算從 $g_{i}$ 到 $\tilde{\mathbf{q}}_{i}^{(t-1)}$ 的單標量的函式（比如，點積）。

之後，我們將推理過程的輸出 $\tilde{\mathbf{q}}_{i}^{(t-1)}$ 和由此產生的注意力讀數 $\mathbf{r}_{i}^{(t-1)}$ 連線起來，形成下一輪的查詢 $\mathbf{q}_{i}^{(t)}$ 。即：

\[\mathbf{q}_{i}^{(t)}=\left[\tilde{\mathbf{q}}_{i}^{(t-1)} ; \mathbf{r}_{i}^{(t-1)}\right]\tag{9} \]

查詢 $\mathbf{q}_{i}^{(t)}$ 會在工作記憶 $h_{i}^{(t)}$ 的指引下更新，並且可以從全域性記憶中檢索到更多上下文線索。

綜上所述，給定的話語 $u_{i}$ 的上下文 $c_{i}$ ，全域性記憶G還有輪數T，整個認知階段（等式9）可以表示為 $q_{i}=Cognition(c_{i},G;T)$ 。在本論文中，我們設計了兩個不同的認識階段來分別探索情景層面和說話人層面的上下文線索。輸出定義如下：

\[\mathbf{q}_{i}^{s}=Cognition^{s}\left(\mathbf{c}_{i}^{s}, \mathbf{G}^{s} ; T^{s}\right),\tag{10} \]\[\mathbf{q}_{i}^{v}=Cognition^{v}\left(\mathbf{c}_{i}^{v}, \mathbf{G}^{v} ; T^{v}\right),\tag{11} \]

其中， $T^{s}和T^{v}$ 分別是情景層面和說話人層面認知階段的輪數。

基於上述輸出向量，最終表述 $\mathbf{o}$ 定義為兩個向量的串聯，即：

\[\mathbf{o}_{i}=\left[\mathbf{q}_{i}^{s} ; \mathbf{q}_{i}^{v}\right],\tag{12} \]

2.3.3 情感分類器

最後，根據上述上下文線索，使用情感分類器預測話語的情感標籤。

\[\hat{\mathbf{y}}_{i}=\operatorname{softmax}\left(\mathbf{W}_{o} \mathbf{o}_{i}+\mathbf{b}_{o}\right),\tag{13} \]

其中， $\mathbf{W}_{o} \in \mathbb{R}^{8 d_{u} \times|\mathcal{Y}|} \text { 和 } \mathbf{b}_{o} \in \mathbb{R}^{|\mathcal{Y}|}$ 是可訓練引數。 $|\mathcal{Y}|$ 是情感標籤的數量。

利用交叉熵損失對模型進行訓練。損失函式定義為：

\[\mathcal{L}=-\frac{1}{\sum_{l=1}^{L} \tau(l)} \sum_{i=1}^{L} \sum_{k=1}^{\tau(i)} \mathbf{y}_{i, k}^{l} \log \left(\hat{\mathbf{y}}_{i, k}^{l}\right),\tag{14} \]

其中 $L$ 是訓練集中對話或者例子的總數。 $\tau(i)$ 是例子 $i$ 中的話語數。 $\mathbf{y}_{i, k}^{l} $ 和 $\hat{\mathbf{y}}_{i, k}^{l}$ 分別是例子 $l$ 中話語 $i$ 的情感分類 $k$ 的one-hot向量和概率向量。

3 實驗步驟

3.1 資料集

我們在以下基準資料集上評估我們提出的模型：IEMOCAP資料集（Busso等人，2008^[21:1]）、SEMAINE資料集（McKeown等人，2012^[22:1]）和MELD資料集（Poria等人，,2019^[23:1]）。資料在表1。上述資料集是具有文字、視覺和聲學特徵的多模態資料集。本文主要研究文字對話中的情感識別。會話中的多模態情感識別被保留為未來的工作。

IEMOCAP
包含十個人雙向對話的視訊，其中，只有從第1節到第4節的前八名發言者屬於訓練組。這些話語用六個情感標籤中的一個進行註釋，即快樂、悲傷、中立、憤怒、興奮和沮喪。根據之前的研究（Hazarika等人，2018a^[9:1];Ghosal等人，2019^[11:2];Jiao等人，2020b^[10:1]）由於IEMOCAP資料集中未提供預定義的訓練集和驗證集的分割，因此驗證集以80:20的比率從隨機洗牌過的訓練集中提取。

SEMAINE

該資料集是一個人-代理互動的視訊資料庫。在2012年的AVEC挑戰賽上可以獲得，該競賽要求預測四個連續的情感屬性：啟用度（Arousal）、預期（Expectancy）、力量（Power）和愉悅度（Valence）。在每個視訊中每0:2秒可獲得一個黃金註釋（Nicolle等人，2012^[24]）接下來（Hazarika等人，2018a^[9:2];Ghosal等人，2019^[11:3]），在話語的跨度上對屬性進行平均，以獲得話語級別的註釋。我們利用挑戰賽中提供的標準訓練和測試拆分資料集。

MELD

多模態情感線資料集（MELD）(Poria等人，2019^[5:1])，EmotionLines（Hsu等人，2018^[25]）的一個延伸。收集自電視連續劇《老友記》，包含1400多個多方對話和13000多個話語。每一個話語都有七個情感標籤（即快樂/快樂（happy/joy）、憤怒（anger）、恐懼（fear）、厭惡（disgust）、悲傷（sadness）、驚訝（surprise）和中立（neutral））。我們使用MELD資料集中提供的預定義訓練和驗證拆分資料集。

3.2 比較方法

我們將提出的模型與以下基線方法進行比較。

TextCNN （Kim,2014^[21:2]）

是一個在上下文無關話語上訓練的卷積神經網路。

Memnet （Sukhbaatar等人，2015^[26]）

是一個端到端的記憶網路，並且以多跳方式更新記憶。

bc-LSTM+Att （Poria等人，2017^[6:1]）

利用了一個雙向LSTM網路來從周圍的話語中捕獲上下文內容。此外，採用注意機制為特徵重新加權，並提供一個有更多資訊的輸出。

CMN （Hazarika等人，2018b^[7:2]）

為兩個說話人用兩個不同的GRU從對話歷史中編碼對話上下文。

ICON （Hazarika等人，2018a^[9:3]）

擴充套件了CMN，通過使用另一個GRU連線單個說話人GRU的輸出以感知說話人間建模。

DialogueRNN （Majumder等人，2019^[8:3]）

是一個由兩個GRU組成的迴圈網路，用於跟蹤會話期間的說話人狀態和上下文。

DialogueGCN （Ghosal等人，2019^[11:4]）

是一種基於圖的模型，其中節點表示話語，邊表示話語說話人之間的依賴關係。

3.3 評估量度

根據之前的研究（Hazarika等人，2018a^[9:4];Jiao等人，2020b^[10:2]），對於IEMOCAP和MELD資料集，我們選擇精確度評分（Acc.）來衡量整體效能。我們也列出加權平均F1評分（Weighted-F1）和巨集平均F1評分（Macro-F1）來分別評估模型在多數分類和少數分類上的效能。對於SEMAINE資料集，我們公佈每個特徵的平均絕對誤差（MAE）。MAE越低，檢測效能越好。

3.4 具體步驟

我們使用驗證集來調整超引數。在感知階段，我們在IEMOCAP和SEMAINE資料集上採用兩層雙向LSTM，在MELD資料集上採用單層雙向LSTM。在認知階段，在所有資料集上都使用單層LSTM。batch的大小設定成32。在IEMOCAP資料集、SEMAINE資料集和MELD資料集上我們使用Adam（Kingma和Ba,2015^[27]）作為優化器，初始學習速率分別為{0.0001，0.001，0.001}，在L2衰退至{0.0002，0.0005，0.0005}。dropout比率設為0.2。我們對所有模型進行最多100個epochs的訓練，如果連續20個epochs的驗證損失沒有減少，則停止訓練。

對於DialogueGCN和DialogueRNN結果，我們在相同的環境下執行作者提供的公共程式碼來得到。

4 結果和分析

4.1 實驗結果

表2、3和4顯示了文字對話中情緒識別的比較結果。DialogueCRN在所有資料集上一直有著比被比較模型更好的表現，同時在配對t-test（p<0.05）下，也具有統計學意義。

IEMOCAP和SEMAINE

IEMOCAP和SEMAINE資料集的會話長度都很長，平均長度不小於50。事實表明這兩個資料集包含了豐富的上下文資訊。 TextCNN 無視了對話上下文獲得了最差的表現. Memnet和bc-LSTM+Att 感知當前話語的情境層面語境。 CMN 感知說話人級別的上下文。

至此， Memnet ， bc-LSTM+Att 和 CMN 略勝於 TextCNN 。 ICON ，DialogueRNN 和 DialogueGCN 考慮情景層面和說話者層面的上下文來模擬上下文的感知階段。它們比上邊的模型表現要好。和基線方法相比， DialogueCRN 可以通過發掘認知因素提取和整合情感線索。因此，我們的模型獲得了更好的評價。也就是說，如表2和表3所示，對於IEMOCAP資料集， DialogueCRN 在Acc.、Weighted-F1和Macro-F1方面分別比以前的最佳基線提高了3.2%、4.0%、4.7%。對於SEMAINE資料集， DialogueCRN 在Arousal特徵的MAE上獲得了11.1%的改善。

MELD

從表1可知，MELD資料集中每個對話的說話人數量很大（最多9人），平均對話長度為10。MELD資料集中的對話長度越短，說明它包含的上下文資訊就越少。有趣的是，從表4的結果來看，忽略會話上下文的 TextCNN 比大多數基線方法獲得了更好的結果。這表明通過感知有限和缺失的上下文，很難學習有用的特徵。此外， DialogueGCN 利用圖形結構感知多個說話人的互動，這足以感知說話人層面的上下文。因此，效能略有提高。和其他基線方法比較， DialogueCRN 可以執行上下文的次序思考並且可以從認知角度理解情感線索。因此，它得到了最好的成績，比如在Weighted-F1上有了2.9%的改善。

4.2 消融實驗（Ablation Study）

為了更好地理解DialogueCRN中不同模組對效能的貢獻，我們對IEMOCAP和SEMAINE資料集進行了幾項消融實驗。在感知和認知兩個階段分別移除模擬情境層面和說話人層面上下文的不同模組。結果在表5展示。當認知和感知模組相繼移除時，效能明顯下降。這表明了認知和知覺階段對ERC都很重要。

認知階段影響

當只移除了認知階段，如表5第三塊所示，在IEMOCAP資料集上Acc.，Weighted-F1和 Macro-F1的表現分別下降了4.3%，4.3%和6.5%。在SEMAINE資料集上，愉悅度、啟用度和預期特徵的MAE分別增加了2.3%、12.5%和2.9%。這些結果表明了認知階段的有效性，認知階段可以有意識地、連續地基於感知得到的上下文資訊進行推理。另外，當移除了說話人層面或者情景層面上下文的認知階段，如第二塊所示，在所有資料集上結果都有所下降。這一事實反映了情境因素和說話人因素在認知階段都是至關重要的。

感知階段影響

如最後一行所示，移除感知模組時，效能會急劇下降。這個較低的結果說明了感知階段在基於當前話語無意識地匹配相關上下文的必要性。

不同上下文的影響

當在認知階段和感知階段上分別移除情景層面或者說話人層面的上下文時，效能有一定的下滑。這一現象表明，情境層面和說話人層面的上下文在感知和認知階段都發揮著一定的效用。另外，在這兩個資料集上的下降幅度不同。這表明說話人層面的上下文在感知階段起著更大的作用，而更復雜的情境層面的上下文在認知階段起著很好的作用。這一點可以說明為，通過直覺匹配感知從上下文中學習資訊特徵是有限的，但有意識的認知推理可以促進更好的理解。

4.3 引數分析

我們研究了我們的模型在認知階段的輪數方面的表現。從圖3可知，在IEMOCAP資料集和SEMAINE資料集上最好的 $\{T^{s}，T^{v}\}$ 是{2，2}和{1，3}，效能得分分別為Weighted-F1分數為66.20% （IEMOCAP上{2，2}），啟用度特徵的MAE為0.1522（SEMAINE上{1，3}）。值得注意的是，SEMAINE資料集在說話人層面的認知階段需要更多的輪次。這意味著說話人層面的上下文線索在啟用度情緒中可能更為重要，尤其是需要複雜推理的移情線索。

此外，如果我們在認知階段只考慮情景層面或說話者層面的上下文，則兩個資料集的結果在一定輪數內得到顯著改善。事實表明，使用多輪推理模組來理解上下文線索是有效的。

4.4 案例研究

圖4顯示了從IEMOCAP資料集中取樣的對話。目標是預測話語8的情感標籤。DialogueRNN和DialogueGCN之類的方法缺少有意識地理解情感線索的能力，比如，情感的原因（期望落空）。他們很容易錯誤地將情緒識別為憤怒或中性。

我們的模型DialogueCRN可以通過感知和認識來理解對話上下文，在認知階段，下列兩個過程在反覆進行：8-7-2-1的直觀檢索過程（藍色箭頭）和a-b-c的有意識的推理過程（紅色箭頭），以此來提取和整合情感線索。我們可以得出，話語8意味著沒有實現女性期望得到的更多補償。補償失敗導致她的情緒更加消極，因此被正確地認定為沮喪。

5 相關工作

5.1 情緒識別

情感識別（ER）越來越受到自然語言處理（NLP）和藝術智慧（AI）的關注。現有的研究通常把ER任務當作一個基於無上下文資料塊的分類任務。比如個人評價或檔案。它們大致可分為兩部分，即基於特徵的工程（Devillers和Vidrascu，2006^[28]）和基於深度學習的方法（Tang等人，2016^[29]；Wei等人，2020^[30]）。

5.2 會話中的情緒識別

近年來，會話中的情緒識別（ERC）受到研究者的關注。與傳統的情感識別不同，情境層面和說話人層面的上下文在識別對話中話語的情感方面起著重要作用（Li等人，2020^[31]）。忽視這些將導致相當有限的效能表現（Bertero等人，2016年^[32]）。現有的研究通常通過深度學習方法來獲取ERC任務的上下文特徵，可以分為基於序列的方法和基於圖形的方法。

基於序列的方法

許多研究捕捉了話語序列中的上下文資訊。Poria等人（2017年^[6:2]）利用LSTM（Hochreiter和Schmidhuber，1997年^[20:2]）來捕捉對話上下文特徵。Hazarika等人（2018a^[7:3]，b^[9:5]）使用端到端的記憶網路（Sukhbaatar等人，2015^[26:1]）捕獲上下文特徵區分不同說話人。Zhong等人（2019^[33]）；Li等人（2020年^[31:1]）利用transformer（Vaswani等人，2017年^[34]）捕獲了基於注意機制的更豐富的上下文特徵。Majumder等人（2019年^[8:4]）引入了使用了GRU的每次對話的說話人狀態和全域性狀態（Cho等人，2014年^[35]）。此外，Jiao等人（2020a^[36]）引入了一項對話完成任務，以從無監督的對話資料中學習。Jiao等人（2020b^[10:3]）提出了一種分層記憶網路，用於無需未來上下文的實時情感識別。Wang等人（2020年^[37]）將ERC建模為序列標記，以一致連續地學習情感。Lu等人（2020年^[12:1]）提出了一個迭代情感互動網路，以明確建模情感互動。

基於圖形的方法

一些研究（Zhang等人，2019年^[38]；Ghosal等人，2019年^[11:5]；Ishiwatari等人，2020年^[39]；Lian等人，2020年^[40]）通過設計特定的圖形結構來模擬對話環境。他們利用圖形神經網路（Kipf和Welling，2017^[41]；Velickovic等人，2017^[42]）捕獲對話中的多個依賴項，這些依賴項已經取得不錯的效能表現。

與以往的研究不同，受情感認知理論的啟發（Schachter和Singer，1962^[13:2]；Scherer等人，2001^[14:2]），本文首次嘗試探索對話中情感識別的認知因素。為了充分理解對話上下文，我們提出了一種新的DialogueCRN模型，以提取並以認知方式整合豐富的情感線索。

6 結論

本文研究了對話中情緒識別（ERC）任務的認知因素。我們提出了新的上下文推理網路（DialogueCRN）來充分理解情景層面和說話人層面的上下文。DialogueCRN引入了認知階段來從由感知階段檢索到的上下文中提取和整合情感線索。在認知階段，我們設計了多輪推理模組，以迭代的方式執行直觀檢索過程和有意識的推理過程，模仿人類獨特的認知思維。最後，成功地獲得觸發當前情緒的情緒線索，並用於更好的分類。在三個基準資料集上的實驗證明了該模型的有效性和優越性。案例研究表明，考慮認知因素可以更好地理解情緒線索，提高ERC的效能。

參考

Li Zhou, Jianfeng Gao, Di Li, and Heung-Yeung Shum.2020. The design and implementation of xiaoice,an empathetic social chatbot. Comput. Linguistics, 46(1):53–93. ↩︎
Akshi Kumar, Prakhar Dogra, and Vikrant Dabas. 2015. Emotion analysis of twitter using opinion mining. In IC3, pages 285–290. IEEE Computer Society. ↩︎
Alexandra Konig, Linda E. Francis, Aarti Malhotra, and Jesse Hoey. 2016. Defining affective identities in elderly nursing home residents for the design of an emotionally intelligent cognitive assistant. In PervasiveHealth, pages 206–210. ACM. ↩︎
Francisco A. Pujol, Higinio Mora, and Ana Martınez. 2019.Emotion recognition to improve e-healthcare systems in smart cities. In RIIFORUM, pages 245–254. Springer. ↩︎
Soujanya Poria, Devamanyu Hazarika, Navonil Ma- jumder, Gautam Naik, Erik Cambria, and Rada Mi- halcea. 2019. MELD: A multimodal multi-party dataset for emotion recognition in conversations. In ACL (1), pages 527–536. Association for Computa- tional Linguistics. ↩︎ ↩︎
Soujanya Poria, Erik Cambria, Devamanyu Hazarika, Navonil Majumder, Amir Zadeh, and Louis-Philippe Morency. 2017. Context-dependent sentiment analy- sis in user-generated videos. In ACL (1), pages 873-833. Association for Computational Linguistics. ↩︎ ↩︎ ↩︎
Devamanyu Hazarika, Soujanya Poria, Amir Zadeh, Erik Cambria, Louis-Philippe Morency, and Roger Zimmermann. 2018b. Conversational memory net- work for emotion recognition in dyadic dialogue videos. In NAACL-HLT, pages 2122–2132. Associa- tion for Computational Linguistics. ↩︎ ↩︎ ↩︎ ↩︎
Deepanway Ghosal, Navonil Majumder, Soujanya Po- ria, Niyati Chhaya, and Alexander F. Gelbukh. 2019. Dialoguegcn: A graph convolutional neural net- work for emotion recognition in conversation. In EMNLP/IJCNLP (1), pages 154–164. Association for Computational Linguistics. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Devamanyu Hazarika, Soujanya Poria, Rada Mihal- cea, Erik Cambria, and Roger Zimmermann. 2018a. ICON: interactive conversational memory network for multimodal emotion detection. In EMNLP, pages 2594–2604. Association for Computational Linguistics. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Wenxiang Jiao, Michael R. Lyu, and Irwin King. 2020b. Real-time emotion recognition via attention gated hi- erarchical memory network. In AAAI, pages 8002–8009. AAAI Press. ↩︎ ↩︎ ↩︎ ↩︎
Deepanway Ghosal, Navonil Majumder, Soujanya Po- ria, Niyati Chhaya, and Alexander F. Gelbukh. 2019. Dialoguegcn: A graph convolutional neural net- work for emotion recognition in conversation. In EMNLP/IJCNLP (1), pages 154–164. Association for Computational Linguistics. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Xin Lu, Yanyan Zhao, Yang Wu, Yijian Tian, Huipeng Chen, and Bing Qin. 2020. An iterative emotion interaction network for emotion recognition in con- versations. In COLING, pages 4078–4088. Interna- tional Committee on Computational Linguistics. ↩︎ ↩︎
Stanley Schachter and Jerome Singer. 1962. Cognitive, social and physiological determinants of emotional state. Psychological Review, 69:378–399. ↩︎ ↩︎ ↩︎
Klaus R Scherer, Angela Schorr, and Tom Johnstone. ↩︎ ↩︎ ↩︎
Jonathan St BT Evans. 1984. Heuristic and analytic processes in reasoning. British Journal of Psychol- ogy, 75(4):451–468. ↩︎
Jonathan St BT Evans. 2003. In two minds: dual- process accounts of reasoning. Trends in cognitive sciences, 7(10):454–459. ↩︎
Jonathan St BT Evans. 2008. Dual-processing ac- counts of reasoning, judgment, and social cognition. Annu. Rev. Psychol., 59:255–278. ↩︎
Steven A Sloman. 1996. The empirical case for two systems of reasoning. Psychological bulletin, 119(1):3. ↩︎
Alan Baddeley. 1992. Working memory. Science, 255(5044):556–559. ↩︎ ↩︎ ↩︎
Sepp Hochreiter and Jurgen Schmidhuber. 1997. Long short-term memory. Neural Comput., 9(8):1735–1780. ↩︎ ↩︎ ↩︎
Yoon Kim. 2014. Convolutional neural networks for sentence classiﬁcation. In EMNLP, pages 1746–1751. The Association for Computer Linguistics. ↩︎ ↩︎ ↩︎
Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014. Glove: Global vectors for word rep- resentation. In EMNLP, pages 1532–1543. The As- sociation for Computer Linguistics. ↩︎ ↩︎
Vinod Nair and Geoffrey E. Hinton. 2010. Rectiﬁed linear units improve restricted boltzmann machines. In ICML, pages 807–814. Omnipress. ↩︎ ↩︎
Jeremie Nicolle, Vincent Rapp, Kevin Bailly, Lionel ´ Prevost, and Mohamed Chetouani. 2012. Robust continuous prediction of human emotions using mul- tiscale dynamic cues. In ICMI, pages 501–508. ACM. ↩︎
Chao-Chun Hsu, Sheng-Yeh Chen, Chuan-Chun Kuo, Ting-Hao K. Huang, and Lun-Wei Ku. 2018. Emo- tionlines: An emotion corpus of multi-party conver- sations. In LREC. European Language Resources Association (ELRA). ↩︎
Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston, and Rob Fergus. 2015. End-to-end memory net- works. In NIPS, pages 2440–2448. ↩︎ ↩︎
Diederik P. Kingma and Jimmy Ba. 2015. Adam: A method for stochastic optimization. In ICLR (Poster). ↩︎
Laurence Devillers and Laurence Vidrascu. 2006. Real- life emotions detection with lexical and paralinguis- tic cues on human-human call center dialogs. In IN- TERSPEECH. ISCA. ↩︎
Duyu Tang, Bing Qin, Xiaocheng Feng, and Ting Liu. 2016. Effective lstms for target-dependent senti- ment classiﬁcation. In COLING, pages 3298–3307. Association for Computational Linguistics. ↩︎
Lingwei Wei, Dou Hu, Wei Zhou, Xuehai Tang, Xi- aodan Zhang, Xin Wang, Jizhong Han, and Songlin Hu. 2020. Hierarchical interaction networks with rethinking mechanism for document-level sentiment analysis. In ECML/PKDD. ↩︎
Li Zhou, Jianfeng Gao, Di Li, and Heung-Yeung Shum. 2020. The design and implementation of xiaoice, an empathetic social chatbot. Comput. Linguistics, 46(1):53–93. ↩︎ ↩︎
Dario Bertero, Farhad Bin Siddique, Chien-Sheng Wu, Yan Wan, Ricky Ho Yin Chan, and Pascale Fung. 2016. Real-time speech emotion and senti- ment recognition for interactive dialogue systems. In EMNLP, pages 1042–1047. The Association for Computational Linguistics. ↩︎
Peixiang Zhong, Di Wang, and Chunyan Miao. 2019. Knowledge-enriched transformer for emotion detec- tion in textual conversations. In EMNLP/IJCNLP (1), pages 165–176. Association for Computational Linguistics. ↩︎
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In NIPS, pages 5998–6008. ↩︎
Kyunghyun Cho, Bart van Merrienboer, C¸ aglar Gulc¸ehre, Dzmitry Bahdanau, Fethi Bougares, Hol- ¨ ger Schwenk, and Yoshua Bengio. 2014. Learning phrase representations using RNN encoder-decoder for statistical machine translation. In EMNLP, pages 1724–1734. The Association for Computer Linguis- tics. ↩︎
Wenxiang Jiao, Michael R. Lyu, and Irwin King. 2020a. Exploiting unsupervised data for emotion recogni- tion in conversations. In EMNLP (Findings), pages 4839–4846. Association for Computational Linguis- tics. ↩︎
Yan Wang, Jiayu Zhang, Jun Ma, Shaojun Wang, and Jing Xiao. 2020. Contextualized emotion recogni- tion in conversation as sequence tagging. In SIGdial, pages 186–195. Association for Computational Lin- guistics. ↩︎
Dong Zhang, Liangqing Wu, Changlong Sun, Shoushan Li, Qiaoming Zhu, and Guodong Zhou. ↩︎
Taichi Ishiwatari, Yuki Yasuda, Taro Miyazaki, and Jun Goto. 2020. Relation-aware graph attention net- works with relational position encodings for emo- tion recognition in conversations. In EMNLP (1), pages 7360–7370. Association for Computational Linguistics. ↩︎
Zheng Lian, Jianhua Tao, Bin Liu, Jian Huang, Zhanlei Yang, and Rongjun Li. 2020. Conversational emo- tion recognition using self-attention mechanisms and graph neural networks. In Interspeech 2020, 21st Annual Conference of the International Speech Communication Association, Virtual Event, Shang- hai, China, 25-29 October 2020, pages 2347–2351. ISCA. ↩︎
Thomas N. Kipf and Max Welling. 2017. Semi- supervised classiﬁcation with graph convolutional networks. In ICLR (Poster). OpenReview.net. ↩︎
Petar Velickovic, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, and Yoshua Bengio. 2017. Graph attention networks. In ICLR. ↩︎