1. 程式人生 > >“智慧音箱”技術詳解

“智慧音箱”技術詳解

喜歡就請關注吧~↗燚智慧硬體開發大講堂用簡單的語言,講複雜的技術!

如今智慧語音控制特別火熱,智慧音箱、汽車、手機……

君子動口不動手,下面講講如何實現“動口不動手”?

語音控制的流程

聲音採集—>降噪—>語音喚醒—>語音轉文字—>語義理解—>回覆文字和指令—>文字轉聲音—>播放聲音

舉例:

1、使用者說“天貓精靈,今天天氣怎麼樣?”

2、“天貓精靈”被語音喚醒模組接收到,並判斷為喚醒詞,然後開始記錄後續的“今天天氣怎麼樣”這段語音,併發送給雲端伺服器。

3、伺服器把這段語音,轉化成文字“今天天氣怎麼樣”,交給語義理解伺服器

語義理解伺服器把“今天天氣怎麼樣”這段文字,拆解成“事件=查詢天氣,時間=今天”這段控制指令回傳給裝置。

4、裝置根據時間和本機地理位置,找天氣伺服器查詢天氣,並獲得天氣的的文字資料“今天要下雨”

5、裝置把“今天要下雨”這幾個字發給文字轉聲音的伺服器,伺服器返回“今天要下雨”這段聲音,由裝置喇叭播放出來。

(3,4,5這三個動作,可以拆開由各個伺服器單獨完成,也可以由一個伺服器統一完成。)

(車載系統做的比較簡單,主要靠本地識別,落後智慧音箱至少5年。)

各模組的功能

降噪(AEC)通過麥克風陣列,判斷人在哪個方向,增強那個方向的拾音效果。這樣可以在5米之外就能聽到人在說話,足夠一間房間使用了。

還可以在本機播放音樂的時候,濾除麥克風接收的本機音樂,使得智慧音箱在播放音樂的時候也能被喚醒。

這就是大家講的雙麥降噪、7麥陣列之類的。

國際上做的比較好的是科勝訊(Conexant),國內做的比較好的是科大訊飛,國內現在有幾十家小公司在做語音降噪演算法

(然而這些小公司很快都會掛掉,原因見文章後面)

喚醒智慧音箱的麥克風在7x24小時接收外部聲音,持續分析這些聲音,看看是否能檢測到喚醒詞(例如前面講的“天貓精靈”),一旦檢測到了喚醒詞,就把之後的語音傳給語音識別伺服器。

國際上喚醒詞做的最好的是Sensory,國內的主要是訊飛等語音識別公司。

像智慧手錶上,一般會有一顆專門的低功耗晶片,內建喚醒詞演算法,隨時開啟等著你說話。不需要佔用CPU資源,非常省電。

語音轉文字(ASR)語音並不能直接拿來分析成意思,必須要轉化成文字。這是個成熟的技術了,以前還會有在現在大資料演算法的輔助下,結合上下文理解,已經可以非常準確的把聲音變成文字了。

語義理解(NLP)自然語言處理,就是把人的語言轉化成機器能夠理解的數字,分解開,並回復響應的語言。

大家覺得智慧音箱是“智障音箱”,主要還是因為這裡,現有的技術只能做到固定的問答,而無法像人類一樣思考。

再加上人類語言有大量的不同表達方式和歧義語句,理解錯誤的地方也會非常多。例如“殺死獵人的狗”,殺死的是獵人,還是狗?

只有NLP語義處理能夠接近人類的理解了,機器的語音互動,才真的能讓使用者正常對話。

文字轉語音(TTS):這個大家都很熟悉了,不管是機械感強烈的訊飛,還是越來越俏皮的siri,或是高德地圖的志玲姐姐聲音,都是依靠TTS語音合成,把文字變成聲音的。

做這個語音合成的非常多,早些年有放在本機端的,現在一般都是雲端來合成。

主流架構

經典架構:降噪用專門的DSP晶片

主控用Android平臺,

語音識別、語義識別、語音合成三個放在雲端

控制和顯示放在本地

現有的國產智慧音箱,全都是這個架構的

做的最好的:Amazon Echo全球銷量最大的,是Amazon Echo系列,幾年時間賣了3000萬臺,直接導致國內2017年智慧音箱公司大量湧現。

Echo和其他智慧音箱最大的區別是:所有的控制,都放在雲端了。哪怕你家的WIFI檯燈和Echo是在同一個區域網,這個燈也是從雲端直接控制的。

把控制也放到雲端的好處是:智慧音箱本身不需要升級任何程式,就可以支援所有的智慧硬體。

做的最簡單的:Google Android ThingsAndroid Things在2018CES剛釋出了新版本,做的比Amazon更省事,把前端語音降噪都放在雲端去做了。演算法更容易更新,隨著時間的發展,能夠提供比本地降噪更優秀的降噪效果。

還能夠降低硬體要求,從而降低硬體成本。

智慧音箱發展趨勢

沒屏的降成本,越做越簡單帶螢幕,做複雜互動,作為中樞多個房間,分散式拾音網路雲端化,能放在雲端的服務都會放上去。做降噪演算法,會比較難活下去傳統語音識別企業,被網際網路打壓(寫太長了大家不愛看,具體原因後面再講。喜歡看的求個“贊”,鼓勵一下小編繼續敲鍵盤吧~~)

總結

智慧音箱,美國賣的很好,國內賣的不怎麼樣。

雖然不知道誰能一統江湖,但以後一定是大勢所趨。

中國賣的不太好的原因,主要是漢語太複雜,稍微調戲一下,智慧音箱很容易就變成了智障音響了。

還有一個原因是,很多中國人生性喜歡和人交流,不喜歡和機器交流。明知道是個機器,還“天貓精靈”“叮咚叮咚”“小愛同學”之類的叫個不停,是不是感覺自己好傻??

喜歡就請關注吧~↗燚智慧周教授講講業內的那些事!

相關精彩內容:

Android Things,新一代物聯網作業系統,和Android區別可大了!

谷歌和聯想,聯合釋出超大屏智慧音箱,除了聽,還能看!

智慧硬體,可能會遇到這些危險的場景!工程師需要注意!

相關推薦

智慧音箱技術

喜歡就請關注吧~↗燚智慧硬體開發大講堂用簡單的語言,講複雜的技術!如今智慧語音控制特別火熱,智慧音箱、汽車、手機……君子動口不動手,下面講講如何實現“動口不動手”?語音控制的流程聲音採集—>降噪—>語音喚醒—>語音轉文字—>語義理解—>回覆文字和指令—>文字轉聲音—>

實現高性能糾刪碼引擎 | 糾刪碼技術(下)

糾刪碼引擎 基礎知識 深入優化 技術 工程師 作者介紹: 徐祥曦,七牛雲工程師,獨立開發了多套高性能糾刪碼/再生碼編碼引擎。柳青,華中科技大學博士,研究方向為基於糾刪碼的分布式存儲系統。前言:在上篇《如何選擇糾刪碼編碼引擎》中,我們簡單了解了 Reed-Solomon Codes(RS 碼

Nginx技術(2)

web服務器 nginx部署一個Web站點:服務器準備:node0IP:192.168.10.3進入/application/nginx/html/下把index.html文件刪除:rm -rf /application/nginx/html/index.html創建index.html文件,並追加文本:ec

Nginx技術(1)

web服務器 nginxNginx Web服務應用:Nginx(engine x)是一個開源的,支持高並發的www服務和代理服務軟件。Nginx是俄羅斯人Igor Sysoev開發的,最初被應用到俄羅斯的大型網站(www.rambler.ru)上。後來作者將源代碼以類BSD許可證的形式開源出來供全球使用。在功

JSP/Servlet及相關技術

script return 指令 o-c rip title info turn expires JSP聲明 <%!聲明部分%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitio

C#漢字轉換拼音技術(高性能)

rim none pie 存在 asp pub net 如果 pinyin public static class ChineseToPinYin { private static readonly Dictionary<<span class=

14.javaweb AJAX技術

填充 cut pub cti div htm .get conn lec 一、簡介 1, ajax:在不重新加載網頁的前提下,與服務器交換數據並更新部分網頁的技巧,但其本身並不是一種新技術 2, 核心:XMLHttpRequest對象。AJAX技術主要是通過此

掃地機器人的構造及核心技術

智能掃地機器人  掃地機器人,又稱自動打掃機、智能吸塵、機器人吸塵器等,是智能家居電器的一種,能憑借一定的人工智能,自動在房間內完成地板清理工作。一般采用刷掃和真空方式,將地面雜物先吸納進入自身的垃圾收納盒,從而完成地面清理的功能。一般來說,將完成清掃、吸塵、擦地工作的機器人,也統一歸為掃地機器人。  掃地機

CDN技術(七)

事務 失敗 需求 重復數 ebsp 一個 解析 設置 不用 動態內容加速服務的實現 隨著Web2.0的興起,產生了動態網頁、個性化內容、電子交易數據等內容的加速,這些就涉及了動態內容加速技術。 靜態內容的加速,都是對於表現層的加速,對於動態頁面等內容的加速,則要涉及邏輯層

《Unity3D 實戰核心技術》書中關於矩陣的錯誤

不同的 linear 應該 印刷 幫助 tar 線性代數 計算 計算機圖形學 最近一直在學習實時渲染,不免要接觸線性代數。而渲染中,一定會用到矩陣,當我再次去復習我之前看的書時,發現《Unity3D 實戰核心技術詳解》關於矩陣就有幾處錯誤 ,特標註出來。 書的第一章《3

HTTP協議報文、工作原理及Java中的HTTP通信技術

tor 報文 buffered mod protoc 禁止 ans 請求報文 客戶端 博客園 首頁 新隨筆 聯系 管理 訂閱

ajax技術,封裝一個原生的ajax請求

status 語法 match 基礎上 abort param sync 可選參數 導致 一、Ajax 概述 Ajax 是 Asynchronous Javascript And XML 的簡寫 Ajax是一門技術,並不是一門語言 使用XHTML+CSS來標準化呈現 使

mysql主從復制技術

mysql主從復制技術詳解M-S主服務器:master1第一步:打開bin-log日誌,設置如下:vim /etc/my.cnflog_binserver-id=1gtid_mode=ONenforce_gtid_consistency=1第二步:進入數據庫授權用戶mysql -uroot -p‘密碼‘gra

WEB網站滲透技術

大拇指 一段 上傳 二次開發 們的 好好學習 提交 tar AR 有兩天沒發文章了,今天給大家來個大頭,那就是WEB網站滲透測試入侵教程 這個WEB網站滲透測試教程~是我見過的幾個少數的讓我看完就豎大拇指的教程 這部教程那可是我只能用棒棒的來形容說不出其他話來的 WEB網站

進階-中小型網絡構建-二層VLAN技術配實驗步驟

中小型網絡構建進階-中小型網絡構建-二層VLAN技術詳解配實驗步驟為什麽講 VLAN ? 在傳統的交換網絡中,為了隔離沖突域,我們引入了交換機。 交換機的每一個端口都是一個不同的隔離域。 但是交換機無法隔離廣播域, 所以,如果網絡中有一個惡意的主機發送廣播的惡意流量, 那麽處於同一個交換網路中的所有設備

ThinkPHP 緩存技術 使用大S方法

sqlite 前臺 thum port class 比較 pac 周期性 百萬 如果沒有緩存的網站是百萬級或者千萬級的訪問量,會給數據庫或者服務器造成很大的壓力,通過緩存,大幅減少服務器和數據庫的負荷,假如我們把讀取數據的過程分為三個層,第一個是訪問層,第一個是緩存層

華為NAT技術

服務器負載均衡 外部 網關 ott 通信 inb tab rul policy NAT介紹:NAT(Network Address Translation,網絡地址轉換)是1994年提出的。當在專用網內部的一些主機本來已經分配到了本地IP地址(即僅在本專用網內使用的專用地址

基於JDK的動態代理技術

end course log 些許 private provide url 模仿 ade 雖然對於Spring的基本思想Aop是基於動態代理和CGlib這一點很早就有所認識,但是什麽是動態代理卻不甚清楚。為了對Spring加深理解,我覺得好好學習一下java

比特幣防篡改技術

點的hash 區塊鏈 技術 mage 幣圈 大整數 挖礦 發放 做的 區塊鏈技術在當下的火爆程度不必多說,比特幣作為中本聰大神的“親兒子”,自然是研究區塊鏈技術繞不開的話題。比特幣是一個完全開放的去中心化的金融系統,時刻暴露在全球黑客攻擊之下仍能安全穩定的運行至今

Python數據科學-技術與商業實踐視頻教程

進步 商業 ofo 視頻 產品 har 面試 href follow Python數據科學-技術詳解與商業實踐(八大案例)網盤地址:https://pan.baidu.com/s/13QrR_5Er6LgWCWzSb7qOrQ 提取碼:s7vw備用地址(騰訊微雲):http