深度學習在語音識別中的演算法、應用、資料集、行業分析
0 語音識別概述 1
1 語音識別的演算法 2
1.1.1 DNN-HMM 2
1.1.2 RNN-CTC 3
1.1.4FSMN 3
1.1.5 LSTM-DNN電話交談語音識別 3
1.1.6Android科大訊飛語音識別原始碼及API下載 3
2. 語音識別的應用場景 4
2.1語音識別的智慧家居框架 4
2.2移動端的使用 5
2.3內容監管上的運用 6
2.3.1 語音識別技術應用之音訊切分和分類技術 6
2.3.2 語音識別技術應用之音訊模板匹配技術 6
2.3.3 語音識別技術應用之節目的自動發現技術 7
2.4 語音導航系統 7
2.4.1 語音導航系統構架 7
2.5 醫療領域 9
2.6 在社交方面的運用 9
3 語音識別資料集 11
4 語音識別行業分析 12
4.1 智慧語音技術取得重大突破,商業化落地成為可能 12
4.2 智慧車載、智慧家居及可穿戴裝置風潮的興起加速語音技術落地 13
4.3科技巨頭,初創公司紛紛從不同維度佈局相關產業鏈 14
4.4 面向物聯網的智慧語音產業鏈的形成將引起商業模式的變化 16
0 語音識別概述
1 語音識別的演算法
2.語音識別的應用場景
2.1語音識別的智慧家居框架
本系統由軟體和硬體兩部分組成, 如圖 2所示.軟體部分又分為雲端和嵌入式客戶端. 雲端和客戶端各自集成了幾個主要模組, 分別實現不同的功能
圖2 系統架構模型
雲端軟體執行在 Linux 上, 它包含聲學模型、語音模型、語料庫、CMU Sphinx 工具包、Java 虛擬機器. 雲端主要功能是接受客戶端傳送的語音檔案轉化成文字檔案返回, 應用程式模組全部使用 Java 開發, 呼叫
CMU Sphinx 提供的類庫. 主要功能包含語音識別演算法和語義轉換模組, 它被部署在 Java 虛擬機器上. 語音識別演算法的主要過程有: 語音輸入、預處理、特徵提取、模型匹配、輸出結果. 首先必須使用 CMU Sphinx的訓練工具以特定聲學模型為基礎對語料庫獲取匹配的 MFCC 特徵資料, 然後使用 MAP 和 MLLR 自適應技術來改進原來的聲學模型。
2.2移動端的使用
隨著移動網際網路技術的不斷髮展,尤其是移動終端的小型化、多樣化變化趨勢,語音識別作為區別於鍵盤、觸屏的人機互動手段之一,在需要解放雙手的環境下、對於雙手或視覺殘障人士、對於無法通過觸覺控制的微型裝置都具有獨特的優勢。隨著語音識別演算法模型、自適應性的加強,相信在未來很長一段時間內,語音識別系統的應用將更加廣泛與深入,更多豐富的移動終端語音識別產品將步入人們的日常生活。
就算對於正常人來說,例如寒冷的冬天,有無數次需要用手機卻死活不想伸手。打電話,發微信,查路線,叫車,這些如果都可以用一個可穿戴裝置通過語音控制實現,那該多好啊。目前出門問問團隊以做出搭載 Moto 360 的智慧手錶作業系統Ticwear,可以實現直接語音控制滴滴打車。
早在一年前,Intel 就開發出可穿戴裝置原型 Jarvis,可戴在耳朵上之後連入手機,以此實現聽懂主人發出的指令、給予語音反饋的功能,充當類似 Siri 的個人語音助手角色
2.3內容監管上的運用
2.3.1 語音識別技術應用之音訊切分和分類技術
音訊切分和分類技術的應用範圍非常廣,以語音識別和關鍵詞處理廣播電視音訊資訊為例,首先要做的就是要打點切分音訊打點切分的時候可以利用靜音檢測方法進行,靜音檢測法在定位方面確性更高,可以為之後的音訊分類奠定基礎。在音訊打點切分完成後,將切分得到的各音訊片段加以分類,使之後的音訊處理有據可循。
2.3.2 語音識別技術應用之音訊模板匹配技術
知道節目的片頭曲或者片尾曲,則可以利用音訊模板匹配技術對節目(片段)進行自動打點和分割。在壓縮及訊號傳輸的影響下,音訊流與固定模板之間會產生巨大差別,而解決魯棒性是其核心所在,通過基於多頻帶能量相對比率的特徵提取方法,利用各時刻所對應的各個頻帶的能量分佈趨勢相對穩定這一特性,解決因為音訊扭曲造成不穩定的問題。
2.3.3 語音識別技術應用之節目的自動發現技術
為了更好地進行本次研究,下面筆者將以廣告識別作為樣本,利用音訊重複性檢測獲取新廣告片段,具體內容概括如下:首先,因為針對的是自動發現未知新節目和廣告而設計的,所以在實際過程中需要將待處理資料從已知模板中去除掉,以便能夠減小計算量;其次,在進行重複候選位置的定位時,通過基於音訊向量空間模型的快速音訊搜尋演算法進行定位,但在具體過程中,因為會召回一些錯誤片段,所以有必要進行過濾處理;再有,利用基於音訊指紋的搜尋確認,用音訊向量空間模型檢測出來的重複片段,這樣檢測出的結果準確性更高,進行重複候選確認,進而檢測出誤報片段。
通過上述幾個步驟的操作,餘下的片段均是重複片段,既有廣告內容的重複部分,也有新聞或者電視節目中的重複部分,然後利用影象幀變化率這一特徵進行區分,將廣告重複部分之外的內容去除。
2.4 語音導航系統
2.4.1 語音導航系統構架
1)客戶通過手機或者固話,利用排隊機接入呼叫中心繫統,在 CTI 和 IVR 的控制下,當用戶需要語音導航業務時,通過呼叫平臺實現話務接入,平臺記錄下的原始語音文字,並進行播報使用者確認無誤後,將該檔案作為語音識別引擎的輸入;
2)原始的語音檔案資訊經過語音識別模組,分別經過特徵提取、端點檢測、去燥處理等語音識別預處理技術,經過處理過的較為乾淨的語音檔案在經過離線解碼、線上解碼、置信度等處理,轉出成自然語言文字資訊,並將原始檔案資訊、原始語音資訊、語音特徵資訊存入文字 / 語音語庫中。
3)將自然語言文字資訊經過自然語言處理,分別經過模式匹配、語法分析、語義解析、語義搜尋、上下文管理、預測等技術處理,將自然語言文字資訊轉換成計算機能識別的語音資訊作為輸出物。
4)並進行業務需求的分析,為自然語言處理引擎提供關鍵資料輸入。
2.5 醫療領域
不僅是簡單的通過智慧手錶追蹤運動情況和心率,還有直接根據人的身體狀況匹配相應的服務如合適的餐廳或食物等,當然這些大多是基於可穿戴裝置的。另外還需要考慮到更多場景,諸如緊急語音求助,醫患對話存檔,呼叫中心的對話聽寫等。
由於醫療領域詞彙庫專業性強演變性弱,只要建立完整的資料庫,就可以做到對疾病名稱、藥品名稱相對精確的識別。國內已有的應用如病歷夾與珍立拍,為醫生提供一個安全儲存病歷資料的雲空間,方便查詢病例,支援語音搜尋功能。
2.6 在社交方面的運用
A、熟人通訊方面,我們應該都見過這樣的場景,計程車上司機們通過對講平臺互相勾兌、插科打諢。路上匆忙的低頭族,很多都在回微信,而如果通過聲控互動構建一個對講平臺,這個體驗就完全不一樣了,你不需要用眼和手也可以隨時給某某捎去一段話,別人給你發來語音、聲控互動會提示你是否接聽,而如果這個互動可以通過耳麥自動識別微小的語音(並根據接聽者情況適度放大),那麼以後走在路上就可以輕鬆而不違和地與人通話了,這個事情的意義在於將從另一個角度接管使用者的關係鏈,形成大網優勢。
B、陌生人社交方面,當下社交產品最大的痛點就是社交質量差、低效社交多、效率遠遠趕不上使用者預期,一個突出表現就是搭訕無人理睬、理睬也在若干小時之後(所以人們為何喜歡直播,因為美女主播至少會說謝謝反饋下),但是語音溝通是一個更加強調即時性和真實性的場景,又不像視訊那麼需要“化妝和端著”,所以反而可能成為新的突破口。至於當下的語音社交平臺為何多數做的不好,因為太像色情聲訊臺了!
C、興趣推薦。如果選擇值得一聽的聲音節目成本如此之高,那麼一個比較好的辦法就是基於興趣的推薦來降低選擇難度。比如喜馬拉雅已經推出了“猜你喜歡”系統,可以通過深度學習、進行類似今日頭條那樣的個性化推薦。那麼再進一步,如果以後這個推薦可以不需要通過眼睛完成呢,直接傳來一個聲音:“小喜根據你的愛好搜到了幾個節目,下面念下標題,你感興趣就喊要這個……”
D、時空觸發。這個意思是,應該給更多的資訊賦予時空屬性,比如在某一時刻放出,或者在某一位置放出。舉一個例子,你今天剛到一家商場,連上wifi,耳麥裡立刻提醒你有最新的優惠活動資訊、要不要聽。你像即刻那樣設定一些關注節點,比如某股又跌了,當這個訊息到來,耳麥裡立刻提醒你要不要聽。你到達某個景點,耳邊響起景點的典故。你晚上睡不著了,耳邊響起周圍人的聲音,像不像《her》?
E、做強參與。同為視訊,直播爆火的勁頭遠遠強於當年的視訊平臺和短視訊,這也釋放了一個訊號,使用者並不滿足於成為單向的內容接受者,他們也希望成為內容的參與者甚至再創作者,他們也希望得到更多的互動和回饋,來滿足參與感、存在感和歸屬感,所以類似電臺的互動直播很重要。
3 語音識別資料集
4 語音識別行業分析
4.1 智慧語音技術取得重大突破,商業化落地成為可能
◈智慧語音技術是人工智慧產業鏈上的關鍵一環
人工智慧產業鏈主要分為三個層次。
底層是基礎設施,包括晶片、模組、感測器,以及以大資料平臺、雲端計算服務和網路運營商。這部分參與者以晶片廠商、科技巨頭、運營商為主。
中間層主要是一些基礎技術研究和服務提供商。包括深度學習/機器學習、計算機視覺、語音技術和自然語言處理以及機器人等領域。這一模組需要有海量的資料,強大的演算法,以及高效能運算平臺支撐。代表性企業主要有BAT、科大訊飛、微軟、亞馬遜、蘋果、facebook等網際網路巨頭和國內一些具有較強科技實力的人工智慧初創公司。
最上層是行業應用。大致分為2B和2C兩個方向。2B的代表領域包括安防、金融、醫療、教育、呼叫中心等。2C的代表領域包括智慧家居、可穿戴裝置、無人駕駛、虛擬助理、家庭機器人等。相關代表性企業既包括網際網路科技巨頭,也包括一些初創廠商。
◈ 中國人工智慧市場規模持續增長,智慧語音將居於重要地位
◈ 智慧語音技術成熟,商業化應用成為可能
深度學習、高效能運算平臺和大資料是人工智慧技術取得突破的核心助推力。深度學習端到端解決了特徵表示與序列影射的問題,使得人工智慧的效能得到了快速提升;而網際網路時代海量的資料又不斷為演算法模型提供了訓練材料,同時,雲端計算的興起和高效能的運算平臺為智慧化提供了強大的運算能力和服務能力。
在語音識別率方面,百度、谷歌,科大訊飛等主流平臺識別準確率均在96%以上,穩定的識別能力為語音技術的落地提供了可能。
◈ 商業場景落地的重要環節語音互動有了重大突破
與此同時,語音互動的核心環節也取得重大突破。語音識別環節突破了單點能力,從遠場識別,到語音分析和語義理解有了重大突破,呈現一種整體的互動方案。
4.2 智慧車載、智慧家居及可穿戴裝置風潮的興起加速語音技術落地
◈ 智慧語音市場整體處於啟動期,智慧車載,智慧家居,智慧可穿戴等垂直領域處於爆發前夜
◈ 智慧車載市場前景廣闊,預計五年內車聯網滲透率超過50%,語音將成為車載系統標配
◈ 智慧家電滲透率提高,智慧家居市場蘊涵千億市場規模,語音作為家居互動入口將大有所為
4.3科技巨頭,初創公司紛紛從不同維度佈局相關產業鏈
◈ 國外科技巨頭:通過併購等手段,夯實核心技術,開放應用平臺,在既有的產品和業務中實現AI first,擴充套件以AI為核心的生態系統
在技術層,科技巨頭多推出演算法平臺吸引開發者,實現產品快速迭代,打造開發者生態鏈,形成行業標準。例如,谷歌通過一系列併購、開放平臺的建立,軟體硬體一體化來打造這個生態系統。
蘋果在自身生態系統中相繼推出面向可穿戴、家居、車載等領域的產品。亞馬遜則基於自身電商生態業務,推出智慧音箱,成功敲開了智慧家居的大門。
◈ 谷歌:延續既有開放模式,打造開發者生態鏈,推出Google Home,試圖建立物聯網時代安卓系統
在谷歌的AI first戰略中,一方面,推出人工智慧學習系統平臺TensorFlow,以吸引開發者,實現產品快速迭代,打造開發者生態鏈,形成行業標準;另一方面,推出谷歌家庭,試圖建立物聯網時代安卓系統。同時,將AI技術應用於其原有的產品中,比如Google輸入法、Google 翻譯、Google Now等,不斷提升產品效能,優化使用者體驗。
◈ 蘋果:基於智慧硬體定標準、做平臺、獲資料 ,重視物聯網時代生態控制權
與谷歌的開放生態不同,蘋果依舊延續了其既有的封閉系統,瞄準物聯網時代的生態控制權。同時,以硬體擅長的蘋果這次仍從佈局硬體起步,打造軟硬體生態系統,依靠其廣泛的OS系統使用者,再基於已推廣的OS系統拓展至物聯網產業鏈。
◈ 國內網際網路巨頭:開放語音生態系統,以產業內合作的方式,將語音技術植入產品和或應用於相關業務場景,構建全產業生態鏈
在中國,以BAT等為代表的眾多網際網路巨頭也紛紛開發智慧語音市場。在語音生態系統方面,百度宣佈語音識別技術及能力全面開放。騰訊、搜狗語音開放平臺相繼上線。
◈ 百度:瞄準人工智慧戰場,對外開放語音生態系統,對內在自身產品業務中實現AI First
◈ 國內智慧語音公司:依託原有優勢,從單一智慧語音技術商轉型全方位人工智慧技術服務商
◈ 科大訊飛:傳統優勢明顯,未來將更注重通用人工智慧技術和平臺級業務的拓展
科大訊飛長期在教育領域擁有絕對優勢。除教育外,政府便民工程、呼叫中心和客服也是訊飛長期深耕的領域。
近兩年訊飛的重點關注的領域開始向移動網際網路和物聯網轉移。從業務佈局層面看,先後釋出訊飛雲平臺和人工智慧互動平臺AIUI,利用通用的人工智慧技術和平臺級業務,將語音識別、自然語言處理能力授權給第三方,或者與其他公司進行合作,並且開始向垂直領域拓展。
◈ 初創廠商:以垂直領域和細分場景為突破口,重點佈局家居,車載和可穿戴裝置
◈ 圖靈機器人:定位於語義和認知計算的平臺服務提供商,提供聊天機器人平臺和機器人作業系統
4.4 面向物聯網的智慧語音產業鏈的形成將引起商業模式的變化
◈ 未來趨勢:以語音為入口,建立以物聯網為基礎的商業模式
◈ 智慧家居:以合適的入口級應用為載體,基於萬物互聯的標準,將技術與硬體結合,實現內容和服務的拓展
◈ 智慧車載:車聯網向縱深方向發展,硬體基礎功能免費,基於使用者資料的挖掘和增值服務將成為未來主要贏利點
轉載自:
《新型工業化》開放式獲取期刊:www.chinaxxgyh.com
語音識別技術在內容監管中的應用 郭莉亞 田書雲 國家新聞出版廣電總局 282 臺
語音識別自適應演算法在智慧家居中的應用 蔣 泰, 張林軍(桂林電子科技大學 計算機與資訊保安學院, 桂林 541004
作者:辯手李慕陽
連結:https://www.zhihu.com/question/20128179/answer/109598639
來源:知乎
智慧家居中語音識別系統的演算法研究 郭莉莉,王 迪,魏惠芳 (瀋陽城市建設學院,110167