1. 程式人生 > >小米和西工大聯手,三篇論文被Interspeech接收

小米和西工大聯手,三篇論文被Interspeech接收

640?wx_fmt=jpeg

翻譯 | 林椿眄

編輯 | 阿司匹林

出品 | 人工智慧頭條(公眾號ID:AI_Thinker)

小米和西北工業大學的“交情”不淺。

去年 7 月,小米和西工大計算機學院的謝磊教授合作,在 arXiv 上提交了一篇端對端的語音識別論文。(詳見文章《小米首次公開發表論文:基於注意力機制的端對端語音識別》)

如今,小米和謝磊教授的合作更進一步,在今年 3 月一口氣發表了三篇論文,都是智慧語音方向的熱門題目,可見小米對語音的重視。

謝磊教授表示,目前這三篇論文均已被語音領域的頂會 Interspeech 接收。下面我們就來看看這三篇論文都涉及哪些研究方向。

一、基於注意力機制的語音關鍵詞檢出

作者:Changhao Shan, Junbo Zhang, Yujun Wang, Lei Xie

在本文中,我們提出了一種基注意力機制的端到端神經網路模型,用於檢出小資源關鍵字(Keyword Spotting,簡稱 KWS),以便簡化構建一套“產品--質量”的 KWS 系統流程。我們的模型用到了編碼器和注意力機制。利用迴圈神經網路結構 (RNN), 我們的編碼器能將輸入訊號轉換為高階的表示。然後,利用注意力機制對編碼器的特徵進行加權,並生成一個固定長度的向量。該向量經線性變換和 softmax 函式處理,最終輸出用於關鍵字檢測的得分。我們還評估了不同編碼器結構的效能,包括 LSTM,GRU 和 CRNN。我們採用現實世界的資料來評估我們的方法,實驗結果表明,我們的方法大大優於近期提出的深度 KWS 方法,而採用 CRNN 結構的編碼器能夠取得最佳檢測效能。 更具體地說,在每小時 1.0 次誤警報 (FA) 的設定下,我們的注意力模型能夠實現 1.02% 的漏檢率 (false rejection rate FRR),而模型引數量僅為84K。

連結:https://arxiv.org/abs/1803.10916

二、用於魯棒語音識別的基於生成對抗網路的語音去混響

作者:Ke Wang, Junbo Zhang, Sining Sun, Yujun Wang, Fei Xiang, Lei Xie

我們研究了生成對抗網路 (GAN) 在語音去混響中的應用,以便提高語音識別的魯棒性。近期的許多工作已將 GAN 應用於語音增強的研究,以便消除額外的噪聲。然而,這些工作缺乏對語音去混響能力的探究,而且 GAN 結構的優勢也未能得到充分發揮。在本文,我們基於 GAN 結構,對 ASR 前端的去混響能力進行了深入的研究。首先,我們研究不同的去混響網路的有效性 (GAN 中的生成器),並發現與我們在這個資料集上研究的前饋 DNN 和 CNN 相比,LSTM 結構能夠顯著地改善模型的效能。接著,我們進一步發現在深層 LSTM 結構中增加殘差連線能夠進一步提高模型的效能。最後,我們還發現在網路訓練期間使用相同的小批量資料來更新生成器和判別器,對於 GAN 結構的成功是非常重要的。此外,正如先前的研究所提到的,使用混響頻譜圖作為判別器的條件可能會降低模型的表現。總之,在多狀態的聲學模型上測試時,我們提出的基於 GAN 結構的去混響網路與基準的 DNN 去混響網路相比,其相對 CER 減少了14%-19%。

連結:https://arxiv.org/abs/1803.10132

三、基於深度學習的語音識別說話人自適應技術

作者:Ke Wang, Junbo Zhang, Yujun Wang, Lei Xie

說話者自適應技術旨在不依賴說話人的情況下,能夠估計說話者特定的聲學模型,以便最小化不同說話者在訓練和測試條件下的不匹配。自從深度學習模型成為主流的研究方向,大量的神經網路自適應方法相繼被提出,但是不同方法之間的對比實驗依舊缺乏,特別是在基於 DNN 的聲學模型得到很大改進的情況。在本文,我們旨在通過對三種典型的說話者自適應方法 (LIN, LHUC 和 KLD) 的評估實驗來解決這個問題。我們的自適應評估實驗,採用不同大小的自適應資料,並在強大的 TDNN-LSTM 聲學模型上進行實驗。更具挑戰的是,我們所關注的說話源和目標分別對應標準普通話的說話者和有口音的普通話的說話者模型,我們比較了不同方法及不用組合下的表現效能,而說話者的自適應效能也能由說話者的口音程度來檢驗。

連結:https://arxiv.org/abs/1803.10146

精彩預告

AI公開課

時間:6月14日 20:00-21:00

掃描海報二維碼,免費報名

新增微信csdnai,備註:公開課,加入課程交流群

640?wx_fmt=jpeg

點選 | 閱讀原文 | 免費學習