智慧語音技術的深度解析
歡迎大家前往騰訊雲+社群,獲取更多騰訊海量技術實踐乾貨哦~
廣義上來講智慧語音技術有各種各樣的定義,以上是常見的一些熱門的場景。語音識別,剛才羅老師也分享了部分內容。語音合成是文字變成語音,這部分我們後面會詳細展開。再往後看,聲紋識別,在智慧車裡面有很多的功能需要人的發音媒介來控制命令的時候聲紋就很重要。開一個車門,車上有一個小孩,突然哭鬧,下一個不合適的指令,你區別不出來這個人,對語音控制來說不合適的。或者有一些不當的操作,可以通過聲紋來做,通過聲音來做對人的識別和認證的過程。聲紋識別其實在未來的應用場景比較熱門,實際應用當中遇到大的挑戰點是什麼?很多其他的生物識別靠人臉或指紋這類比較穩定的特徵,可是聲紋不穩定,人高興的時候,第一天晚上唱了卡拉OK,第二天聲音啞了,怎麼能夠在變化比較明顯的生物特徵上做識別是一個很大的挑戰。
聲學事件監測,在家裡有音響或者有監控的系統,監控裡面有沒有嬰兒啼哭的聲音,或者有什麼不當的聲音發生,這就是聲學事件監測的應用。現在這些難點不算難,有更多場景接進來的時候這一塊有很快的發展。
自然語音處理,本質來看是在語義層面上做了一些工作。
我們繼續往下展開,語音識別剛才羅老師提了很多了,我們就不多講了,這些技術和環節串起來就是語音識別的框架和結構。
語音識別面臨的挑戰,在實際應用當中我們遇到的一些難點,我們需要怎麼解決呢?也像之前提到的,語音識別的準確率達到多少?你們這個場景能夠達到90%左右,就會被人家說,別的廠商反饋95%到97%,你們怎麼只有90%。其實有一個前提,你提供的語音材料質量怎麼樣?如果聲音很清晰,沒有雜音可以達到97%。
語音識別遇到的挑戰,首先就是口語化的問題,很多時候你的發言並不像你的演講這麼理智這麼邏輯,有很多口語化的表達。比如說在會議的場景,有很多人同時說話,會搶著說話。本身你聽錄音的時候都感覺很嘈雜,這個時候指望語音識別有特別高的準確率比較難。離話筒比較遠,麥克風技術等等,在這裡面需要做一些提高。
還有就是方言的問題,本身帶口音的,我們日常做語音識別訓練的語料本身不太標準,本身對帶口音的普通話的識別,我們在訓練語料的時候就灌輸進去,口音不是特別嚴重的情況下,輕度的口音沒有什麼問題。口音嚴重的,除非你是當地人,否則你都聽不清,這就對語音識別有很大的挑戰。所以我們投入應用的時候要考慮場景和錄音材料,這樣才能達到好的效果。要線上下和線上給客戶一個好的體驗,我們儘量提高語音識別的能力,在其他這方面的素材層面也一樣的,是要有一定的配合度效果才能比較好。
因為語音識別講的比較多,後面我們轉到其他的主題,下一個階段我講一下語音合成。語音合成更大程度上是一門藝術。語音識別對它轉寫的好壞有客觀衡量標準,你說一句話,轉成文字的結果,跟正常說的話做比對準確率是多少?但是語音合成的難點就是難有客觀統一標準。語音合成最後的目的是達到什麼?希望機器的發音跟人正常的發音接近,對語音合成這項技術的判定的好壞是比較藝術的,你這個聲音好聽好不好聽,像不像真人,是比較偏主觀的感受。
語音合成,如果只有識別沒有合成,你只能聽不能說,這樣的話互動體驗不是完整的,語音合成的技術當下越來越熱,也有很多的場景需要語音合成,後面會具體展開多講這一塊。
語音識別合成這項技術很明確的,那它有什麼難點呢?你看到人在說話的時候,人的聲音是否準確,說話是否流暢,人的發言在不同場景下是陰陽頓挫的,很多時候你會發現這是一個機器人在說話,對於語音合成這項技術就不成功,因為語音合成最後的目標就是以假亂真,聽到機器人說話,不認真聽聽不出來,這也是在做技術突破的點。
技術難點的主觀性,有時候很難有一個客觀指標,有人說這個語音合成不好,我說哪兒不好?他說我聽著不舒服,在不同場合下人的要求,你的聲音是否滿足,你的聲音是否適合做語音助手,我會有一些例子給大家聽,展現我們現在做的技術的突破。
還有一部分提到很多客戶的需求,希望有語音的定製化,為什麼?對大型公司來說,如果我做一個智慧冰箱或者智慧硬體,這個聲音的要求高,這個聲音對於他們來說,跟品牌的logo一樣,希望我的使用者聽到的聲音,是我這個品牌的音響,或者我這個品牌的應用。我不希望跟別人共享。也有這種類似的需求,也是很常見的,這一塊對語音合成的技術也有挑戰。有的廠商比較有錢,可以請到一些明星來錄音棚錄音,錄音的質量決定了合成的效果,之前做合成要求來錄音棚錄8個小時才能有比較好的效果,現在這個門檻不斷在降低。
今年騰訊內部,由馬化騰在微信裡面給大家發紅包,有一段語音,這段語音就是用語音合成做出來的,我們蒐集馬化騰在大會上比較有質的發音,以這些優質的發音做組合訓練,依然可以達到很好的合成效果。
簡單講一下語音合成技術的引進。最早是波形拼接,從每個人的發音,你的發音是什麼樣子,然後把這個波形拼接,然後是HMM+GMM的合成,然後再到神經網路的引數合成,然後WaveNet合成。WaveNet合成的效果非常接近真人錄音的效果,MOS是一個對語音合成的指標,產生的聲碼器能夠做到4.2已經很好了,真人的錄音效果普遍在4.5,如果做的好在4.5以上,WaveNet合成我看到比較好的效果是在4.52,非常接近真人的錄音效果。谷歌在今年AI大會上釋出了人和機器人對話的效果,那個效果就是WaveNet合成的效果。這些是WaveNet合成的聲音,比以前一聽就是很明顯的機器人的聲音,現在的合成技術效果相比以前有一個質的提升。
簡單講一下WaveNet,因為我是做產品的,可能講的不夠深,後續可以繼續探討。WaveNet是端到端的合成技術,是谷歌提出來的,最早WaveNet的合成速度比較慢,對資源消耗比較大,2017年底的時候谷歌又出了一個WaveNet的技術,比之前加速1000倍。
前面主要是講了技術方面的儲備,後面我們切換到更多的場景層面。
講到數字化這個主題,為什麼說語音在數字化的時代很重要?數字化時代,很多時候對使用者的服務和追求是更好的人機互動體驗,有更多的人機互動渠道,比如說你的客戶是機器人,你只能給別人打字聊天,跟客服做反饋,現在越來越多的希望基於人的交流,如果自己特別大量的去做,這對人工成本消耗比較高,這是一個場景。需要售後服務的方式,人機互動的模式有一個更好的效果。
手機端的應用,釋出的這些例子都可以看到。首先是語音輸入法,按住這個鍵,然後是語音提醒,5分鐘以後我要打一個電話,幫我記錄一下,或者提醒我喝口水,用簡單的輸入做語音的提醒功能,相信很多人用到。微信裡面說話,比如說我收到大一段語音以後,我在開會,長按語音鍵上面有一個按紐,上面有一個轉文字,就會把你剛才收到的語音材料轉成文字的形式,在不方便聽語音的情況下一樣實時接受資訊的效果。
這裡有一段語音,這也是我們之前的一個專案做的一個東西,這是嵌入在銀行APP裡面的一個應用。我們當時因為是內部在做測試,測試人知道下一步的效果。感覺就不太連貫,這個應用裡面看到的,除了剛才講到的很多資訊對話的場景以外,很多功能性的產品上面把語音技術嵌進去。語音技術識別的成熟度,很多業務場景,需要辦理業務的場景一樣可以用語音互動的方式來做接入。
剛才講的是手機端的情況,跳出手機端我們講硬體。智慧硬體也火了很久,語音識別合成,語義理解就是很重要的功能。智慧穿戴、手錶等等一些場景,更常見的是智慧的音箱,還有車載的語音技術。尤其在車載環境下語音是很重要的,在車上的時候駕駛員沒有時間按手機的,如果持續按手機比較危險,這個時候語音互動是很好的切入點,來實現控制,比如說簡單的開空調,比如說幫我放一張碟,比用手按不僅方便而且增加了安全性。
這是智慧硬體的幾個方案,在酒店應用的一個場景。我們在北京一家酒店做了一些樣板間,把語音互動的平臺,放在客房,通過跟他的互動,類似幫我拉一下窗簾,幫我放一下音樂,幫我關燈,很多人比較懶,在酒店裡面不想關燈,都可以幫你實現。包括天氣、交通、新聞等等,在酒店客房可以實現語音助手的效果,也方便了很多酒店的住客。
前面講了手機端的應用,然後是智慧硬體的應用,還有一個很大的應用場景,是客服機器人,其實線上下遇到的這些問題,這些問題大家都有了解,一個是你需要24小時的反饋,如果你需要同時線上,客戶問你的問題80%都是重複的,沒有困難到需要人查的地步。比如說運營商查詢話費等等。如果80%的問題重複,我們設法用機器人來解決,講到全渠道的觀念,最早機器人客服用一些公眾號、服務號,還有一些網頁的客服等等。電話坐席還是用人工來覆蓋,因為電話坐席前面放一層語音識別,還有就是語音合成,如果這兩個做不好,客戶體驗就很差,不知道有沒有這樣的電話,你發現是機器人,語音識別很差,我一聽是機器人,就很沒有耐心。然後是語義,有的合成效果不錯,沒有以為是機器人,當我說了兩句話給我反饋一樣的時候,我知道是機器人,了語音識別失敗,或者語義沒有解析。電話客服是一個很綜合,又比較有挑戰的產品。需要我們繼續摸索,如果這個效果做的好,很大程度上能夠解決需要克服的,也解決很多客戶等待的問題,未來這些都需要進一步優化。
前面講了一些場景化的問題,後面落實到我們騰訊雲,包括線下場景的一些解決方案,我們在做的一些方向。這部分先回顧一下,之前羅老師也講到騰訊雲語音類能力,包括語音識別,語音合成等等,在這些技術上面打包一些解決方案,這些解決方案能夠解決什麼實際的問題?
首先是直播安全的解決方案。在網際網路領域內容的安全審定,一直是監管部門很重視的話題。對相應的直播平臺,它的內容不可控的。如果主播在直播間裡面有不當的行為,一樣會受到很多的舉報,會給這些平臺帶來很多麻煩。最早的這些內容鑑別,基於影象這個層面來做,有的時候解決不了問題。可能影象裡面沒有出現什麼越界的問題,但是說的話是不對的,或者整個直播過程中間發出來的聲音不正常,就圖上來看沒有什麼,下面的這些字有點小,但是被鑑別出來了。在直播過程當中,說的話是違規的,直播平臺會受到下線或者告警,需要結合圖片,包括語音,甚至音訊聲音識別的能力來做內容稽核。
客服質檢,也是線下很多電話客服的場景。話務員跟客戶的對話質量不可控,成熟平臺還好,現在一些網際網路金融公司,他們的業務發展比較快,又遇到催款等等,工作人員話術不規範,甚至是罵人的場景。這樣的情況就會受到很多的投訴,某某平臺的客服特別不文明。能不能基於這些客服的錄音做質檢,靠人去檢,比如說20個坐席,一天靠人來質檢檢查不了幾通電話,語音識別這麼好,我整個電話錄音的情況記錄下來,然後轉成文字,在文字層面基於關鍵詞或者特定業務邏輯做評分,來評價我的客服是否符合我的管理規範,這也是基於語音識別這個基礎做的方案。
智慧法庭解決方案,它也是比較有趣的。書記員需要做記錄,某某人說了什麼,一樣的在庭審的場景下,速記員的個人習慣不同,或者這裡漏了一點什麼,那裡多了什麼,庭審的記錄可讀性不強。我們在這個場景下,把語音識別技術放進去以後:法官前面有一個麥克風,被告和原告都有麥克風,通過麥克風把這句話是誰說的記錄下來,語音轉成文字,變成文字以後,結合這兩個層面形成記錄:公訴人說了什麼,法官說了什麼,還有被告人說了什麼。基於這個記錄後續再做檔案的檢索。
語音識別技術,在之前談到的幾個場景中,就描述了語音識別技術怎麼幫助線下的很多傳統行業或者是政府機關。
小微是誰?我們打包了一個人機互動的操作平臺,在海外比較成熟的是亞馬遜,一樣的基於這個平臺,你通過簡單的對話能,比如說幫我查一下天氣,對於整個小微平臺後臺的技術,基於語音識別,語音合成,以及對話的處理,多種能力綜合起來達到一種人機互動的效果。
除了有這些語音的能力以外,這種平臺是否好用?這也是我們騰訊自己本身的優勢,騰訊音樂等等自有的能力打包,我們把這些能力放到小微平臺當中去,小微的使用者可以很方便的使用。
語音互動的平臺一定程度上對應一些硬體,包括機器人等等。基於這些硬體合作伙伴,最後形成整個人機互動的終端生態圈。哈曼卡頓音樂也是很高階的音響,跟騰小微合作,低中音效果都是非常好的,你的音響只是一個人機互動,如果想聽音樂,對這方面有比較好的要求都可以達到。
Q&A:
Q:現在有部分的小語種或語料不夠,導致識別率不高,識別率怎麼統計的?
A:語音識別的結果跟正常文字的結果一個字一個字的比對,業內也有提到句錯率。
Q:我想問一個問題,小微,類似其他的產品都已經出來了。比如說微軟的,還有亞馬遜的,谷歌也有相應的生態圈,也有相應的開發工具,應用場景以及特點,SKD或者是開發平臺的使用方便有沒有做過比較,比較結果能不能跟大家做一個分享?
A:比較結果,說實話各家的進展都比較快,很難說有一個精確的,國外真的成熟度比較高的是亞馬遜和谷歌的產品。因為生態比較完整,有大量的開發和底層應用平臺,國內還是屬於起步階段。騰訊小微,這方面的優勢,包括對開發者的友好程度,包括底層硬體的能力,我們本身騰訊的原生的能力比較強的。我們有QQ音樂等有非常好的內容,我們幫助開發者在這方面提升,硬體平臺的開發也很高,很難說有一個準確的數字,因為高內市場比較早,還都是齊頭並進的狀態。
此文已由作者授權騰訊雲+社群釋出,更多原文請點選
搜尋關注公眾號「雲加社群」,第一時間獲取技術乾貨,關注後回覆1024 送你一份技術課程大禮包!
海量技術實踐經驗,盡在雲加社群!