小米和西工大聯手，三篇論文被Interspeech接收

阿新 • • 發佈：2019-02-16

640?wx_fmt=jpeg

翻譯 | 林椿眄

編輯 | 阿司匹林

出品 | 人工智慧頭條（公眾號ID：AI_Thinker）

小米和西北工業大學的“交情”不淺。

去年 7 月，小米和西工大計算機學院的謝磊教授合作，在 arXiv 上提交了一篇端對端的語音識別論文。（詳見文章《小米首次公開發表論文：基於注意力機制的端對端語音識別》）

如今，小米和謝磊教授的合作更進一步，在今年 3 月一口氣發表了三篇論文，都是智慧語音方向的熱門題目，可見小米對語音的重視。

謝磊教授表示，目前這三篇論文均已被語音領域的頂會 Interspeech 接收。下面我們就來看看這三篇論文都涉及哪些研究方向。

▌一、基於注意力機制的語音關鍵詞檢出

作者：Changhao Shan, Junbo Zhang, Yujun Wang, Lei Xie

在本文中，我們提出了一種基注意力機制的端到端神經網路模型，用於檢出小資源關鍵字(Keyword Spotting，簡稱 KWS)，以便簡化構建一套“產品--質量”的 KWS 系統流程。我們的模型用到了編碼器和注意力機制。利用迴圈神經網路結構 (RNN)，我們的編碼器能將輸入訊號轉換為高階的表示。然後，利用注意力機制對編碼器的特徵進行加權，並生成一個固定長度的向量。該向量經線性變換和 softmax 函式處理，最終輸出用於關鍵字檢測的得分。我們還評估了不同編碼器結構的效能，包括 LSTM，GRU 和 CRNN。我們採用現實世界的資料來評估我們的方法，實驗結果表明，我們的方法大大優於近期提出的深度 KWS 方法，而採用 CRNN 結構的編碼器能夠取得最佳檢測效能。更具體地說，在每小時 1.0 次誤警報 (FA) 的設定下，我們的注意力模型能夠實現 1.02% 的漏檢率 (false rejection rate FRR)，而模型引數量僅為84K。

連結：https://arxiv.org/abs/1803.10916

▌二、用於魯棒語音識別的基於生成對抗網路的語音去混響

作者：Ke Wang, Junbo Zhang, Sining Sun, Yujun Wang, Fei Xiang, Lei Xie

我們研究了生成對抗網路 (GAN) 在語音去混響中的應用，以便提高語音識別的魯棒性。近期的許多工作已將 GAN 應用於語音增強的研究，以便消除額外的噪聲。然而，這些工作缺乏對語音去混響能力的探究，而且 GAN 結構的優勢也未能得到充分發揮。在本文，我們基於 GAN 結構，對 ASR 前端的去混響能力進行了深入的研究。首先，我們研究不同的去混響網路的有效性 (GAN 中的生成器)，並發現與我們在這個資料集上研究的前饋 DNN 和 CNN 相比，LSTM 結構能夠顯著地改善模型的效能。接著，我們進一步發現在深層 LSTM 結構中增加殘差連線能夠進一步提高模型的效能。最後，我們還發現在網路訓練期間使用相同的小批量資料來更新生成器和判別器，對於 GAN 結構的成功是非常重要的。此外，正如先前的研究所提到的，使用混響頻譜圖作為判別器的條件可能會降低模型的表現。總之，在多狀態的聲學模型上測試時，我們提出的基於 GAN 結構的去混響網路與基準的 DNN 去混響網路相比，其相對 CER 減少了14％-19％。

連結：https://arxiv.org/abs/1803.10132

▌三、基於深度學習的語音識別說話人自適應技術

作者：Ke Wang, Junbo Zhang, Yujun Wang, Lei Xie

說話者自適應技術旨在不依賴說話人的情況下，能夠估計說話者特定的聲學模型，以便最小化不同說話者在訓練和測試條件下的不匹配。自從深度學習模型成為主流的研究方向，大量的神經網路自適應方法相繼被提出，但是不同方法之間的對比實驗依舊缺乏，特別是在基於 DNN 的聲學模型得到很大改進的情況。在本文，我們旨在通過對三種典型的說話者自適應方法 (LIN, LHUC 和 KLD) 的評估實驗來解決這個問題。我們的自適應評估實驗，採用不同大小的自適應資料，並在強大的 TDNN-LSTM 聲學模型上進行實驗。更具挑戰的是，我們所關注的說話源和目標分別對應標準普通話的說話者和有口音的普通話的說話者模型，我們比較了不同方法及不用組合下的表現效能，而說話者的自適應效能也能由說話者的口音程度來檢驗。

連結：https://arxiv.org/abs/1803.10146

精彩預告

◆

AI公開課

◆

時間：6月14日 20:00-21:00

掃描海報二維碼，免費報名

新增微信csdnai，備註：公開課，加入課程交流群

640?wx_fmt=jpeg

點選 | 閱讀原文 | 免費學習

小米和西工大聯手，三篇論文被Interspeech接收

翻譯 | 林椿眄編輯 | 阿司匹林出品 | 人工智慧頭條（公眾號ID：AI_Thinker）小米

C++成員函數指針錯誤用法警示（成員函數指針與高性能的C++委托，三篇），附好多評論

其中崩潰 odin 包含版本 msvc 測試平臺可見是你今天做一個成績管理系統的並發引擎，用Qt做的，仿照QtConcurrent搞了個模板基類。這裏為了隱藏細節，隔離變化，把並發的東西全部包含在模板基類中。子類只需註冊需要並發執行的入口函數即可在單獨

請使用迭代查詢一個list中最小和最大值，並返回一個tuple：# 測試 if findMinAndMax([]) != (None, None): print('測試失敗!') elif findMinAndMax([7]) != (7, 7): print('測試失敗!&

def findminmax(L): a = [] if L != a: min = L[0] max = L[0] for i in L: if min > i: min = i

請使用迭代查詢一個list中最小和最大值，並返回一個tuple

自己寫個小程式玩，程式碼實現： def findMinAndMax(L): if len(L) == 0: return (None, None) else: mi = L[0] ma = L[0] f

使用迭代查詢一個list中最小和最大值，並返回一個tuple。

Numbuer = [5,8,109,87,99,33,24,77] def findMinAndMax(Numbuer): 　　if Numbuer !=[]: 　　　　min = Numbuer[0] 　　　　max = Numbuer[0] 　　for x in Numbuer: 　　　　if max

poj 2018_Best Cow Fences (求數列中一個欄位和最大問題，欄位的長度不小於L)

想要理解這個問題我們需要先掌握幾個要點： 1、對於一個序列，求一個欄位它的和最大，沒有“長度不小於L的限制”問題。 2、對於一個序列，求一個欄位它的和最大，欄位的長度不小於L的問題。欄位和可以轉化成為字首和相減的形式，也就是說sumi=(a1+a2+...+ai)

請使用迭代查詢一個list中最小和最大值，並返回一個tuple（Python）

from collections import Iterable, Iterator def g(): yield 1 yield 2 yield 3 print('Iterable? [1, 2, 3]:', isinstance(

python3_請使用迭代查詢一個list中最小和最大值，並返回一個tuple：

請使用迭代查詢一個list中最小和最大值，並返回一個tuple：在Pycharm以下程式碼執行成功： def findMinAndMax(L): if L!=[]:

我的第一個上線小程式，三篇其一

LayaBox案例分享小程式開篇（1）不知不覺後端搬磚六年了，回想過去，什麼也沒留下，突然覺得是時候寫點什麼了。為什麼我要選擇小程式呢，主要是覺得上手簡單，易於傳播，同時可以投放廣告。我的第一個小程式主要是想總結下這幾年的程式設計積累，同時分享出來。分為基礎內容和實戰篇，目前僅上線了基礎內容。目前我

我的第一個上線小程序，三篇其一

avi bindview contain container suse ui界面查看 ali 開篇 LayaBox案例分享小程序開篇（1）不知不覺後端搬磚六年了，回想過去，什麽也沒留下，突然覺得是時候寫點什麽了。為什麽我要選擇小程序呢，主要是覺得上手簡單，易於傳播，

我的第一個上線小程式，三篇其二

LayaBox案例分享小程式開篇（2）感謝大家的捧場，這一篇我們先聊點乾貨。關於小程式小遊戲怎麼變現。我們每天都看抖音、新聞、玩小遊戲等，暴露在手機螢幕上的廣告，產生的流量都轉換成別人的分紅了。然而作為開發出來這些軟體的人們，卻又反過來成了消費者。。。 2018年，我做了很多嘗試，嘗試過各平臺發文

我的第一個上線小程式，三篇其三

LayaBox案例分享小程式開篇（3）不知不覺已經是上線小程式基礎篇的最後一篇了，今天我會把原始碼發到本文的底部，有需要的可以拿去練手。大家可以體驗一下，請掃碼：這個頁面我們主要用到的知識有；佈局依然是WEUI；資料解析外掛WxParse，下面會額外分享一下WxParse的兩

百度研究院在矽谷新設兩大實驗室，三名AI科學家加盟

李根發自紐約量子位報道 | 公眾號 QbitAI百度研究院再次擴軍。今日，百度研究院在矽

Google引爆大資料時代的三篇論文

談到Hadoop的起源，就不得不提Google的三駕馬車：Google FS、MapReduce、BigTable。雖然Google沒有公佈這三個產品的原始碼，但是他釋出了這三個產品的詳細設計論文，奠定了風靡全球的大資料演算法的基礎！一、GFS——2003 2003年，G

ThreadLocal和ConcurrentHashMap的不同，掃盲篇

本文主要是針對ThreadLocal和ConcurrentHashMap的使用說一個簡單的說明，其中示例說明了他們兩個從結果上看的明顯不同，掃盲篇什麼是ThreadLocal ThreadLocal並不是一個Thread，而是Thread的區域性變數。

Json和Map互轉，三個包（org.json/net.sf.json/com.google.gson）

ogl war keys static sta print int for ons 目前使用的（org.json/net.sf.json/com.google.gson）這三種json-map互轉，其他包的以後在補充。。。。。。。。。。。。。。導入的jar有： com

Maven系列第6篇：生命週期和外掛詳解，此篇看過之後在maven的理解上可以超越同級別90%的人！

maven系列目標：從入門開始開始掌握一個高階開發所需要的maven技能。這是maven系列第6篇。整個maven系列的內容前後是有依賴的，如果之前沒有接觸過maven，建議從第一篇看起，本文尾部有maven完整系列的連線。前面我們使用maven過程中，用到了一些命令，如下： mvn clean mvn

P2P流媒體技術三篇論文研讀筆記(CoolStreaming)

這段時間的精力全部放在P2P流媒體技術上了才兩三年沒接觸，原來P2P技術又有了長足的發展。 Gossip協議給P2P流媒體技術帶來的變化是革命性的，將來可能還有更好的系統出現。 CoolStreaming系統，目前看來是最好的P2P流媒體系統了。下面是我用FreeMin

谷歌三篇論文之二---MapReduce

MapReduce：超大機群上的簡單資料處理 MapReduce是一個程式設計模型，和處理、產生大資料集的相關實現。使用者指定一個map函式處理一個key/value對，從而產生中間的key/value對集。然後再指定一個reduce函式合併所有的具有相同中間

王三乾老師談大發快三一分鐘回血上岸技巧，快三和值走勢規律值得學習 wangY8986

老師玩cai已經兩年了，開始也交過不少學費，還好運氣不錯，在沒有徹底失望之前終於積累了一定的經驗，有了自己的一套玩法。對於cai轉不賺錢這個問題。我覺得這個世界上除了TC公務員沒有什麼是一定賺錢的。這些都是老師多年來總結出來的經驗現在的cai大多都是私彩，也就是所謂的黑cai。cai有兩種：一種是官方cai，

小米和西工大聯手，三篇論文被Interspeech接收

相關推薦