微軟 Azure AI 又一里程碑:Neural TTS 新模型呈現真人般情感飽滿的 AI 語音
1 月 27 日訊息,如何讓 AI 語音有效模仿人類對話的豐富動態與情感,已成為全球研究者的共同挑戰。據微軟官方訊息,就在不久前,微軟 Azure Neural TTS(神經網路文字轉語音)推出的新一代模型“Uni-TTS v4”在這一領域取得了里程碑式的重大突破。在“2021 國際語音合成大賽(Blizzard Challenge 2021)”的測試中,Uni-TTS v4 的語音表現與通用資料集上的自然語音相比幾乎沒有明顯差別,展現出足以“叫板”真人對話的實力。
“耳聽”為實,微軟官方還放出了幾段 TTS 和真人對話的對比,一起來感受下新模型帶來的逼真語音表現。
英語:The visualizations of the vocal quality continue in a quartet and octet.
真人錄音:
Uni-TTS v4:
英語:Like other visitors, he is a believer.
真人錄音:
Uni-TTS v4:
中文:另外,也要規避當前的地緣局勢風險,等待合適的時機介入。
真人錄音:
Uni-TTS v4:
使用者可以在 Azure TTS 線上服務中使用自創文字來建立新的 demo。目前 Uni-TTS v4 可支援 TTS 語言庫中 7 個語種的 8 個語音,研發團隊還將持續使用最新模型優化 Neural TTS 已支援的其它語言以及自定義神經語音,以便能讓使用者通過 Azure TTS API、 Microsoft Office 和 Edge browser 直接獲得更出色的新一代 TTS 語音。
官方介紹,為了讓 TTS 在以上兩方面獲得提升,Uni-TTS v4 在聲學建模中引入了兩項重要更新,研究團隊首先採用了一個帶有 transformer 和卷積塊的新架構,以更好地模擬聲學模型中的區域性和全域性依賴關係;其次,從顯性視角(身份 ID、語種 ID、音調、語速)和隱性視角(話語級和音素級韻律)系統地對變數資訊進行建模。這些視角分別使用監督學習和無監督學習,確保端到端的音訊具有足夠自然的表現力。
瞭解到,作為微軟 Azure 認知服務中的強大語音合成功能,Neural TTS 可用於幫助開發者將文字轉換為真人一般的逼真自然語音,常被用於語音助手場景、文字朗讀功能,及作為輔助性工具等等,同時也被整合到微軟的 Edge Read Aloud、Immersive Reader 和 Word Read Aloud 等旗艦產品中,還被 AT&T、Duolingo、Progressive 等眾多客戶採用。Neural TTS 已擁有 330 多個音色,支援來自不同國家和地區的近 130 種語言或方言。使用者和企業可以通過搜尋“Azure TTS”進入產品網站,測試體驗 Neural TTS 的豐富預設語音,抑或錄製並上傳自己的樣本,來建立獨有的自定義語音。