1. 程式人生 > 資訊 >微軟展示智慧合成聲音定製技術新玩法,讓每一個角色都栩栩如生

微軟展示智慧合成聲音定製技術新玩法,讓每一個角色都栩栩如生

8 月 18 日訊息智慧語音技術的飛速發展,讓 AI 合成語音的聽感更加自然、逼真,讓越來越多企業實現了與客戶的多模態互動。基於微軟 Azure 雲平臺建立聲音定製服務定製的專屬個性化聲音,已被廣泛應用在諸如語音助手、聊天機器人、線上學習、有聲讀物或新聞播報等多種使用場景。

傳統上,完成一個定製聲音時間週期長、複雜度高。需要發音人錄製成千上萬句語料作為訓練資料,再由擁有深度神經網路和語音合成專業背景的專家針對客戶的語音資料進行聲學模型和語音合成器的訓練及調優,整個過程往往需要數月的時間。微軟推出基於深度神經網路的聲音定製服務,所需訓練資料更少,只要 300 至 2000 句語料資料(約 30-120 分鐘);訓練調優的難度和複雜度更加簡化,即使沒有深度神經網路和語音合成專業背景的使用者也可實現自助訓練,得到媲美人類發音的效果。使用者需註冊 Azure 雲平臺 Speech Studio,申請獲得深度神經網路聲音定製許可權後,即可一鍵完成個性化聲音模型的訓練,並快速部署 API,適用於各種場景的應用開發。

除平臺自助服務,微軟專家還可為有需求的客戶提供包括聲音畫像設計、發音人選擇、錄音指導、模型評估和調優等全流程的語音定製支援和輔導,幫助英國 BBC 廣播公司Swisscom 瑞士電信、美國 AT&T 旗下的華納兔八哥體驗店、美國 Progressive 前進保險公司、Duolingo 多鄰國和國內的小米華人運通等不同行業的客戶成功打造了自己的專屬定製聲音。

獲悉,美國 AT&T 體驗店兔八哥語音助手,採用了微軟的聲音定製服務,並以兔八哥配音演員的授權聲音建立了這一虛擬動畫人物的語音模型,以奇趣的風格與顧客對話,回答常見的問題,增強了顧客粘性。

微軟 AI 語音技術在 AT & T 體驗店的兔八哥上的應用:

Flo 是美國 Progressive 前進保險公司打造的虛擬銷售助理,性格樂觀開朗、俏皮可愛。幾年前,美國前進保險公司就邀請專業配音演員使用微軟的聲音定製服務為 Flo 配音,讓 Flo 可以自然地交流互動,深得客戶喜愛,打破了大眾對智慧語音客服機械感的固有認識。

虛擬銷售助理 Flo 聲音:

語言學習公司多鄰國通過使用微軟的聲音定製服務,為 9 個各具特色的卡通角色分別定製了個性化聲音,讓語言學習更加趣味十足。同時,這一服務支援多語言能力,可以讓每一個卡通角色同時會英語、西班牙語、法語、德語、日語等多國語言。

作為一家平臺型公司,微軟表示,在降低技術門檻,促進技術普惠的同時,也在堅持負責任地使用人工智慧,並以公平、可靠與安全、隱私與保障、包容、透明、負責六個基本道德準則指導人工智慧的發展和應用。

微軟基於深度神經網路的聲音定製技術與微軟 Azure 認知服務的更多內容檢視,點此連結