AI為啥能讀懂說話人的情感?
摘要:本文介紹了語音情感識別領域的發展現狀,挑戰,重點介紹了處理標註資料缺乏的問題。
本文分享自華為雲社群《語音情感識別的應用和挑戰》,作者:SSIL_SZT_ZS。
情感在人與人的交流中扮演者重要的角色。情感識別具有極大的應用價值,成功的檢測人的情感狀態對於社交機器人、醫療、教育質量評估和一些其他的人機互動系統都有著重要意義。本文的要點有:
1、情感識別的基礎知識和應用場景。
2、語音情感識別技術的介紹以及面臨的挑戰。
3、如何解決資料缺乏問題,我們的方案是什麼。
1.什麼是情感識別?
情感是人對外部事件或對話活動的態度。人的情感一般分為:高興、生氣、悲傷、恐懼和驚喜等。機器對採集的訊號進行分析,從而得到人的情感狀態,這一過程就是情感識別。通常,能用來進行情緒識別的訊號包括兩個方面,一個是生理訊號如呼吸、心率和體溫,另一個是行為表現包括面部表情、語音和姿態等等。人臉與語音得益於簡單的採集方式,經常被用來識別物件的情感。情感識別能幫助系統瞭解物件的情感狀態以及其對某個話題或事務的態度。
在人工智慧(AI)產品和人的互動過程中,如果能夠準確地把握人當前的情感狀態,根據情感狀態做出迴應,可以極大地提升使用者對AI產品的體驗。這在商品推薦,輿論監控,人機對話等方面都有著重要的意義。例如,在銷售過程中,瞭解使用者對商品的滿意度,可以幫助平臺制定更好的銷售策略;在影視行業,瞭解觀眾對節目的喜怒哀樂,能幫助制定更精彩的劇情以及安排特定節目的上線時間;在人機對話中,掌握人的情感狀態可以幫助智慧機器人做出恰當的回覆,並適時地表達安撫和諒解,提升使用者體驗;在輿論方面,行政部門通過了解群眾對熱門事件的情感傾向、掌握輿論導向,從而更及時有效的進行輿情監控,為制定政策提供支援。情感識別還能應用於許多現實的場景中。情感識別演算法具有很高的研究價值。
考慮到採集難度、隱私等因素,本文的工作聚焦於使用語音來識別說話人情感的語音情感識別(SpeechEmotionRecognition,SER)任務。
2.語音情感識別技術介紹
語音是日常生活中交流的主要媒介,它不僅傳達了思想,還表達了說話人的情感狀態。語音情感識別的目標是從語音中識別出人類的情感狀態。其主要包含兩個步驟:特徵提取與分類器構建。
音訊訊號輸入是近似連續的數值。提取音訊特徵通常首先對音訊進行分幀,加窗,進行短時傅立葉變換(STFT)。然後得到了維度為T\timesDT×D的頻譜特徵,其中TT表示幀數與時間長度相關,DD是特徵維度,每個維度對應不同的頻率。有一些工作也會對此頻譜進行一些mel濾波操作。
頻譜特徵包含豐富的資訊,比如說話內容、節奏、語氣、語調等等。與情感相關的語音特徵提取仍然是一個尚未成熟研究方向。深度學習的出現簡化了人工特徵提出過程,使用資料驅動的方法,利用情感標籤作為監督訊號來訓練深度模型提取與情感相關的隱含語義特徵。由於音訊輸入的序列化特點,深度特徵提取通常也有基於CNN/GRU/LSTM方法,或者基於CRNN或CNN+Attention的方法。
傳統的機器學習方法可以基於人工語音特徵或者深度語音特徵構建分類器,例如高斯混合模型(GMM),隱馬爾科夫模型(HMM),支援向量機(SVM)等經典方法。此外,得益於深度學習的發展,基於神經網路的分類器可以與深度特徵提取器一起端到端(end-to-end)訓練,得到情感分類器。
3.語音情感識別面臨的挑戰
我們前面介紹了語音情感分析中常用的方法,但語音情感識別在實際中也面臨著一些挑戰:
- 情感主觀性與模糊性問題:語音情感識別是一個比較年輕的領域,在情感定義上缺乏官方標準。不同聽者對同一段語音的情感可能有不同的觀點。此外,一段語音往往有情感變化,主觀性較強,導致許多研究工作沒有普適性。
- 情感特徵提取和選擇問題:語音說話人各種各樣,情感類別多變,語音片段長短不一等,這些問題導致人工設計特徵無法涵蓋全部情感資訊。另一方面,深度特徵雖然效果好,但不具有可解釋性。
- 標註資料缺乏問題:深度學習方法取得很好的效能要求大量的高質量的標註資料。由於情感的主觀性與模糊性,標註語音情感非常費時費力,同時要求大量專業人員。收集大量情感標註資料,是語音情感識別領域亟需解決的問題。
4.如何解決資料缺乏的問題?
資料是深度學習的驅動力,大規模高質量的資料是深度學習取得成功的關鍵。然而,在很多實際問題中,由於標註代價問題,只存在少量的標註資料,這嚴重限制深度學習方法的發展。隨著網際網路社交平臺的發展,每天都回生產大量的多媒體資料,大規模無標註的資料很容易獲得。這就促進了能同時使用標註資料和無標註資料的半監督學習(Semi-SupervisedLearning)方法的發展。另一方面,多媒體資料通常情況下都包含多個模態,因此也有一些工作探索利用一個模態的標註知識去加強在另一個模態上的任務的效果。下面介紹這兩種方法。
4.1半監督學習
半監督學習一般有兩個資料集,一個小規模的有標註資料集,一個大規模的無標註資料集。其目的是利用無標註資料來增強,監督學習的效果。經典半監督學習方法包含很多類別,例如self-training(自訓練演算法),generativemodels(生成模型),SVMs(半監督支援向量機),graph-basedmethods(圖論方法),multiviewlearing(多視角演算法)等等。下面介紹幾類主要半監督學習方法。
- 簡單自訓練演算法(self-training)
self-training演算法的步驟為:(1)首先利用標註訓練集資料訓練分類器;(2)利用分類器對無標註資料進行分類,並計算誤差;(3)選擇分類結果中誤差較小的樣本,將分類結果作為其標籤,加入到訓練集。迴圈次訓練過程,直到所有的無標註資料被標註。 - 多視角學習(multiviewlearing)
這是self-training演算法的一種。其假設每個資料可以從不同的角度進行分類。演算法步驟如下:(1)在角度用標註資料集訓練出不同的分類器;(2)用這些分類器從不同的角度對無標註資料進行分類;(3)根據多個分類結果來選出可信的無標籤樣本加入訓練集。迴圈前面的訓練過程。此方法的優點是不同角度的預測結果可以相互補充,從而提高分類精度。 - 標籤傳播演算法(LabelPropagationAlgorithm)
標籤傳播演算法是一種基於圖的半監督演算法,通過構造圖結構來找無標籤資料和有標籤資料之間的關係,然後通過這個關係來進行標籤傳播。
在深度學習上的半監督學習方法,叫做半監督深度學習。半監督深度學習主要包括三類:Fine-tune;基於深度學習的self-training演算法;半監督的方式訓練神經網路。
Fine-tune方式,利用無標籤資料訓練網路(重構自編碼或基於偽標籤訓練),然後使用有標籤資料在目標任務上進行微調。
基於深度學習方法的self-training,基本的步驟:(1)利用有標註資料訓練深度模型;(2)利用深度模型作為分類器或者利用深度特徵對無標籤資料進行分類;(3)選擇執行度高的加入有標籤訓練集,重複此過程。
半監督的方法訓練深度網路包含許多技術,例如Pseudo-Label[1],LadderNetworks[2],TemporalEnsembling[3],Meanteachers[4]還有FixMatch等等。下面我們介紹幾個主要的工作。
1.Pseudo-Label方法[1]
此方法將網路對無標籤資料的預測結果,作為無標籤資料的標籤,來訓練網路。方法雖然簡單,效果卻很好。從下圖我們可以看出,加了無標籤資料之後,同一個類別的資料點聚集得更籠了。
2.TemporalEnsembling[3]
TemporalEnsembling是Pseudo-Label方法的發展。其目標是構造更好的偽標籤。下圖給出了此方法的結構圖,此方法有兩種不同的實現,即ππ-model和temporalensembling。
ππ-model的無監督代價是對同一個輸入在不同的正則或資料增強的條件下模型輸入應具有一致性,這樣可以鼓勵網路學習資料內部的不變性。
Temporalensembling對每一次迭代的預測z_izi進行移動平均得個\hat{z_i}zi^作為無監督訓練的監督訊號。
3.Meanteacher[4]
Meanteacher方法另闢蹊徑,從模型的角度提高偽標籤質量,其奉行“平均的就是最好的”原則。對每次迭代之後的student模型引數進行移動平均(weight-averaged)得到teacher模型,然後用teacher模型來構造高質量的偽標籤,來監督student模型的無標籤loss。
4.FixMatch[5]
FixMatch發揚了TemporalEnsembling方法中的一致性正則化(consistencyregularization)原則,即同一個樣本的不同增廣,模型應該得到一致的結果,從而學習資料內部的不變性。因此FixMatch方法利用弱增廣的樣本生成一個偽標籤,利用此偽標籤來監督模型對強增廣樣本的輸出。
4.2跨模態知識遷移
跨模態知識遷移基於多媒體資料中各個模態之間的內在聯絡,將標註資訊由一個模態向目標模態遷移從而實現資料標註。如下圖所示,跨模態知識遷移包括視覺到語音的遷移,文字到影象的遷移等等。下面介紹幾種經典的跨模態知識遷移工作。
1.基於跨媒體遷移的影象情感分析[6]
此方法利用推特上成對的文字影象資料,完成影象情感分析任務,具體步驟如下圖。
其使用訓練好的文字情感分類器,對文字進行情感分類,然後將標籤直接給對應的圖片。然後使用具有偽標註的圖片訓練圖片情感分類器。
2.SoundNet[7]
通過預訓練的視訊物件和場景識別網路實現從視覺模態到語音模態的知識遷移,利用遷移的標籤訓練語音模型,完成語音場景或語音物件分類。
3.EmotionRecognitioninSpeechusingCross-ModalTransferintheWild[8]
此方法利用預訓練好的人臉情感識別模型作為teacher模型,然後利用teacher模型的預測結果來訓練語音情感識別模型。
5.我們的語音情感識別方案
這一節將介紹我們處理標註資料缺乏的方案。
聯合跨模態知識遷移與半監督學習方法
為了解決語音情感識別領域資料缺乏的問題,我們在2021年提出了聯合跨模態知識遷移與半監督學習的架構,該方法在CH-SMIS以及IEMOCAP資料集上取得了語音情感識別任務當前最優的結果,同時我們將此工作發表在SCI一區期刊knowledge-basedsystem上發表論文Combiningcross-modalknowledgetransferandsemi-supervisedlearningforspeechemotionrecognition。下面是我們的方案的架構圖:
我們的方案基於兩個觀察:
- 直接跨模態標籤遷移存在誤差,因為人臉情感與語音語音情感之間的關係十分複雜,並不是完全一致。
- 半監督學習方法,標註資料很少的情況下,表現並不好。模型的預測錯誤可能會不斷的得到加強,導致模型在某些類別上精度很低。
我們的方法收到了多視角學習思路的啟發,利用視訊資料中存在兩種模態,在兩個模態上識別情感,融合它們獲得更加準確的偽標籤。為了進行語音情感識別,本方案首先提取了語音的STFT特徵,然後進行了Specaugment資料增廣。因為Transformer在建模序列資料的成功,本方案採用了Transformer的encoder進行語音的編碼,最後利用均值池化來得到語音特徵並分類情感。
跨模態知識遷移
為了進行跨模態情感遷移,本方案基於MobileNet模型利用大量的人臉表情資料集訓練了一個性能強大的人臉表情識別模型。使用此模型對從視訊中抽取的圖片幀進行人臉表情識別。然後將多個幀識別的結果綜合到一起得到整個視訊段的人臉表情預測結果。
半監督語音情感識別
受到FixMatch中一致性正則化假設的啟發,我們設計了半監督語音情感識別方法。具體的,此方法對語音樣本輸入採取了兩種型別的增廣,利用強增廣方法SpecAugment演算法獲得到語音嚴重扭曲版頻譜特徵,利用弱增廣方法(特徵上的dropout等)得到變化不大的語音特徵。模型使用弱增廣的樣本生成偽標籤,來監督強增廣的樣本的訓練。
結合半監督學習與跨模態知識遷移
在模型的每一次迭代中,本方法利用弱增廣樣本生成一個偽標籤,然後將其與跨模態遷移的偽標籤進行融合,以提高偽標籤的質量。本工作探索了兩種融合方法,一個是加權求和,一個是多視角一致性。得到高質量的偽標籤之後,用此標籤監督強增廣樣本的訓練。
模型通過多次迭代,不斷提升偽標籤質量。
相對於半監督學習方法和跨模態方法,本方法在CH-SIMS和IEMOCAP資料集上均取得了最好的效果。結果如下:
參考文獻
[1]Pseudo-Label:TheSimpleandEfficientSemi-SupervisedLearningMethodforDeepNeuralNetworks
[2]Semi-SupervisedLearningwithLadderNetworks
[3]TemporalEnsemblingforSemi-supervisedLearning
[4]Meanteachersarebetterrolemodels:Weight-averagedconsistencytargetsimprovesemi-superviseddeeplearningresults
[5]FixMatch:SimplifyingSemi-SupervisedLearningwithConsistencyandConfidence
[6]Cross-MediaLearningforImageSentimentAnalysisintheWild
[7]SoundNet:LearningSoundRepresentationsfromUnlabeledVideo
[8]EmotionRecognitioninSpeechusingCross-ModalTransferintheWild