1. 程式人生 > 實用技巧 >ASP.NET--表示式、運算子與分支結構

ASP.NET--表示式、運算子與分支結構

論文筆記 — AVEC 2019 Workshop and Challenge: State-of-Mind, Detecting Depression with AI, and Cross-Cultural Affect Recognition

論文題目:AVEC 2019 Workshop and Challenge: State-of-Mind, Detecting
Depression with AI, and Cross-Cultural Affect Recognition(AVEC 2019研討會和挑戰:心態,檢測抑鬱與人工智慧,跨文化影響識別)
論文作者:Fabien Ringeval,Björn Schuller∗,Michel Valstar,Nicholas Cummins,Roddy Cowie,Leili Tavabi,Maximilian Schmitt,Sina Alisamir,Shahin Amiriparian,Eva-Maria Messner,Siyang Song,Shuo Liu,Ziping Zhao,Adria Mallol-Ragolta,Zhao Ren,Mohammad Soleymani,Maja Pantic†

摘要

The Audio/Visual Emotion Challenge and Workshop (AVEC 2019)這個比賽,旨在比較多媒體處理和機器學習方法的自動視聽健康和情感分析。
本文介紹了今年介紹的主要創新點、挑戰指南、所使用的資料以及基線系統在三項擬議任務上的表現:精神狀態識別(SoMS), 抑鬱評估與人工智慧(DDS),和跨文化影響感知(CES)。【注:本篇部落格將主要描述抑鬱評估與人工智慧】

介紹

AVEC-2019:旨在比較用於自動音訊、視覺和視聽健康和情感感知的多媒體處理方法和機器學習方法 。AVEC系列的目標之一是將來自不同學科的多個社群聚集在一起,特別是視聽多媒體社群和那些在心理和社會科學研究表達行為;另一個目標

是通過為多模態資訊處理提供一個共同的基準測試集來推進健康和情感識別系統。
資料特點:為了比較在明確的條件下自動健康和情感分析方法的相對優點,採用的資料是具有大量的完全自然行為的未分割的、非原型的和非預先選擇的資料。
人工智慧抑鬱檢測(DDS):其中抑鬱嚴重程度(PHQ-8問卷)是從與進行臨床訪談的虛擬代理人互動的患者的視聽記錄中評估的。DAIC資料集包含同一批患者的新記錄,這次虛擬代理完全由人工智慧驅動,也就是說,沒有任何人工干預。這些新記錄被用作DDS的測試分割槽,並將有助於理解沒有人執行的虛擬代理對抑鬱症嚴重程度自動評估的影響。
標準:提供了音訊和視訊資料的標準特徵集()以及公共儲存庫中可用的指令碼1,【
倉地址
:https://github.com/AudioVisualEmotionChallenge/AVEC2019】
關於每個子專案的排名依據主要採用:Concordance Correlation Coefficient (CCC)一致性相關係數。我們認為,可重現性CCC指數是最適合使用的度量標準,因為它不受規模和位置變化的影響,並且在單一統計度量中優雅地包含了精度和準確性方面的資訊, 此外,它的理論定義和性質在文獻[41]中有很好的基礎,並且它可以很容易地被用作訓練神經網路的損失函式。

相關工作(DDS)

2015年,世界衛生組織(WHO)宣佈抑鬱症是全球範圍內導致疾病和殘疾的主要原因:超過3億人患有抑鬱症。鑑於抑鬱症的高患病率及其自殺風險,尋找新的診斷和治療方法變得越來越關鍵。人們對使用自動人類行為分析來進行計算機輔助抑鬱症診斷越來越感興趣,這種診斷基於行為線索,如面部表情和語音韻律,因為有令人信服的證據表明,抑鬱症和相關的心理健康障礙與行為模式的變化有關[8,11,28,58,78]。 面部活動、手勢、頭部運動和表情是與抑鬱密切相關的行為訊號。對抑鬱症語音的早期副語言學研究發現,患者始終表現出韻律語言異常,如音高降低、音高範圍縮小、語速變慢和較高的發音錯誤。
【注:其他研究:可以被電腦視覺追蹤的面部表情和頭部動作也能很好地預測抑鬱症; 例如,一個更向下的角度,較少強烈的微笑,較短的平均微笑持續時間被報道為最顯著的面部暗示抑鬱;此外,身體表情、手勢、頭部動作和語言線索也被報道為抑鬱檢測提供了相關線索[1,39,43,44]】
有人提出將情感計算技術整合到計算機代理中,以便對人們進行訪談並識別精神疾病的語言和非語言指標,如:收集創傷後應激障礙患者的資料表明, 當代理人被作為Woz的人驅動時,PHQ-8問卷對其抑鬱嚴重程度的自動評估可以達到RMSE小於5的水平。這些結果還需要進一步研究,代理完全由人工智慧驅動,因為嚮導可能會將虛擬代理驅動到一個可以簡化對與抑鬱相關的模式的觀察的情況,或者自主代理可能在恰當地進行訪談時遇到問題。

語料庫

DDS的擴充套件-Distress Analysis Interview Corpus****DAIC語料庫[23]。在下面提供了資料集the Extended Distress Analysis Interview Corpus (E-DAIC)(E-DAIC)的簡短概述,並請讀者參考原始工作以獲得更完整的描述。 其中包含半臨床訪談,旨在支援對心理痛苦狀況的診斷,如焦慮、抑鬱和創傷後應激障礙。這些訪談被收集作為建立一個計算機代理的巨大努力的一部分,這個計算機代理可以採訪人們並識別精神疾病的語言和非語言指標[23]。
資料: 收集的資料包括音訊和視訊記錄,使用GoogleCloud的語音識別服務自動轉錄文字,以及廣泛的問卷答覆。訪談是由一個叫做Ellie的動畫虛擬面試官進行的【注:在WoZ面試中,虛擬代理由在另一個房間的人類面試官(嚮導)控制,而在AI面試中,代理以完全自主的方式行動,使用不同的自動感知和行為生成模組。】。E-DAIC資料集被劃分為訓練集、開發集和測試集,在分割槽內同時保留說話人的整體多樣性——年齡、性別分佈和八項患者健康問卷(PHQ-8)評分。訓練集和驗證集有WoZ和AI混合收集, 測試集完全由自治AI收集的資料組成。下圖為資料集分割槽的具體細節:
在這裡插入圖片描述

基線特徵

來自視聽訊號的情感識別通常依賴於特徵集,其提取是基於在語音處理領域獲得的幾十年多研究的專門知識,如,Mel係數等。視聽表示可以從專家驅動的資訊提取的原始訊號[59],或直接從原始訊號。

  1. 專業知識:情感感知的傳統方法是通過在固定持續時間的滑動分析視窗中計算的一組統計措施,對一段時間內的視聽訊號的低階描述符(LLDS)進行總結。這些描述符通常包括音訊通道的頻譜、倒頻譜、韻律和音質資訊,以及視訊通道的外觀、幾何和FAUs資訊。作為音訊特性,我們計算擴充套件的Geneva Minimalistic Acoustic Parameter Set (eGeMAPS)[19],它包含覆蓋上述聲學維度的88個度量,並在這裡用作基線;此外,MFCCs1-13,包括它們的一階和二階導數(Deltas和雙帶)被計算為一組聲學LLD,使用openSMILE[20]工具包。【注:語音特徵提取工具openSMILE:可以提取MFCC特徵,plp特徵,eGeMAPS等,http://audeering.com/technology/opensmile/】
  2. 詞袋技術(Bags-of-Words,BoW):詞袋技術(BoW)起源於文字處理,根據從它們中學到的字典來表示LLDs的分佈。
    【注:詞袋技術程式碼:https://github.com/openXBOW/openXBOW】
  3. 深度表示
    與去年的[47]一樣,我們將深度頻譜5特性作為基於深度學習的音訊基線特徵表示。深度頻譜特徵的靈感來自於影象處理中常見的深度表示學習模式:將語音例項的頻譜影象輸入到預先訓練好的影象識別網路CNNS中,然後將得到的一組啟用提取為特徵向量。 今年我們使用VGG-16[69]、AlexNet[34]、DenseNet-121和DenseNet-201[26]從四個健壯的預先訓練的CNN中提取了深度頻譜特徵;
    其過程:
  • 語音檔案首先被轉換成具128mel頻段的mel譜圖影象;

  • 所有競賽語料庫的視窗寬度為4s,E-DAIC資料集的跳數為1s;

  • 將基於頻譜的影象通過預先訓練好的網路進行訓練/轉發;

  • 根據VGG-16和AlexNet中第二個完全連通層的啟用形成4096維特徵向量,並分別從DenseNet-121和DenseNet-201網路的最後一個平均池層啟用得到1024維和1920維特徵向量。(音訊基線特徵提取模型)
    【注:深度學習音訊基線特徵程式碼地址:https://github.com/DeepSpectrum/DeepSpectrum】

基線系統

所有基線系統完全依賴現有的開源機器學習工具包,以確保結果的重現性。
抑鬱檢測基線模型:對於抑鬱檢測基線,我們使用單層64-d的GRU作為我們的遞迴網路(GUR-RNNS),dropout正規化率為20%,然後是一個64-d的全連通層,得到一個單值迴歸分數(基於PHQ-8SCORE的標籤,為了處理偏差,我們在訓練前將PHQ-8score標籤縮小到25倍,將其轉換為浮點數)使用CCC損失函式和評估分數對網路進行訓練和評估,並使用原始的PHQ標度報告RMSE結果。批大小為15的使用是一致的,學習率是通過不同的特徵集優化。對於MFCCs和eGeMAPSllds,以及諸如DeepSpectrum、ResNet和VGG等高維深表示,使用的最大序列長度為20分鐘。為了讓資料適合GPU記憶體,一個最大的序列長度已經被分配給會話。為MFCCs和eGeMAPS LLDs以及像DeepSpectrum、ResNet和VGG這樣的高維深度表示,使用的最大序列長度為20分鐘。此外,對於ResNet, VGG和Deep Spectrum表示幀被刪除,保留兩個幀中的一個,或四個幀中的一個,這取決於維數,以便資料可以載入到記憶體中。不同的視聽表現的融合是通過平均他們的分數來實現的。
注:
GRU:GRU是LSTM網路的一種效果很好的變體,它較LSTM網路的結構更加簡單,而且效果也很好,因此也是當前非常流形的一種網路。GRU既然是LSTM的變體,因此也是可以解決RNN網路中的長依賴問題。在LSTM中引入了三個門函式:輸入門、遺忘門和輸出門來控制輸入值、記憶值和輸出值。而在GRU模型中只有兩個門:分別是更新門和重置門。具體結構如下圖所示:
在這裡插入圖片描述
圖中的zt和rt分別表示更新門(是原來LSTM中的遺忘門和輸入門的結合)和重置門。更新門用於控制前一時刻的狀態資訊被帶入到當前狀態中的程度,更新門的值越大說明前一時刻的狀態資訊帶入越多。重置門控制前一狀態有多少資訊被寫入到當前的候選集 h~t 上,重置門越小,前一狀態的資訊被寫入的越少。
GRU前向傳播

根據上面的GRU的模型圖,我們來看看網路的前向傳播公式:
在這裡插入圖片描述   
  其中[]表示兩個向量相連,*表示矩陣的乘積。
  LSTM和CRU都是通過各種門函式來將重要特徵保留下來,這樣就保證了在long-term傳播的時候也不會丟失。此外GRU相對於LSTM少了一個門函式,因此在引數的數量上也是要少於LSTM的,所以整體上GRU的訓練速度要快於LSTM的。不過對於兩個網路的好壞還是得看具體的應用場景。【注:摘自:https://www.cnblogs.com/jiangxinyang/p/9376021.html】
基線實驗測試結果如下:
在這裡插入圖片描述
表明,在開發集上,音訊特性的最佳CCC評分是通過Deep spectrum (DS-VGG)特性獲得的,同時,對比2017年僅使用DAIC-WoZ dataset的資料結果RMSE = 6.97,今年的RMSE = 6.37,雖然效能有所提高但不是很大,並且 一個簡單的線性迴歸模型與今年的GRU-RNN,明顯GRU-RNN更復雜。所以,根據與虛擬主體互動時自動感知抑鬱水平的結果,當主體僅由人工智慧驅動時,識別似乎比由人類作為WoZ驅動主體時更具挑戰性即,在DDS中,當進行訪談的虛擬代理完全由AI驅動時,與Woz設定相比,抑鬱水平的預測(PHQ-8)更具挑戰性。這一觀察開啟了一個有趣的研究問題,即如何設計agent,使對抑鬱線索的觀察最大化。
總結:這篇競賽的規範,我從中主要得到了的是關於音訊方面,其特徵提取的基線模型是深度頻譜特徵(CNNS)的模型,比原來的特徵全部手工提取更加方便;其抑鬱檢測模型採用的是GRU-RNNs,將音訊特徵提取的特徵輸入到GRU-RNNs,然後經過訓練測試得到分類結果。