微軟語音釋出升級版 HiFiNet 聲碼器：發音更準更自然、高保真度、合成更快

阿新 • • 發佈：2021-06-24

6 月 24 日訊息微軟日前釋出新一代深度神經網路 HiFiNet 聲碼器，與微軟上一代語音技術相比，由 HiFiNet 聲碼器合成的神經網路版聲音質量再創新高，主要體現在發音更準確、韻律更自然、高保真效果更完美，更受客戶青睞。自推出以來，被廣泛應用到有聲讀物、線上教育、車載語音助手等領域。

獲悉，HiFiNet 是微軟神經網路版語音合成技術中最新的聲音編碼器，是決定音訊質量的關鍵因素。根據專業評估語音自然度的 MOS 測試結果顯示，由 HiFiNet 聲碼器合成的語音音質可與用於訓練的真人錄音樣本相媲美，並同時改善毛刺、噪音等音訊質量問題，輸出的音質具備更高保真度，更大程度還原真人錄音。

（微軟上一代聲碼器合成聲音）

（微軟 HiFiNet 聲碼器合成聲音）

語音質量的優劣會直接影響收聽者的感受，為提升使用者收聽的舒適度，在 Azure 語音合成系統中，神經網路聲學模型基於深度學習網路，使用真人錄音作為原始資料進行迭代訓練。首先，提取真人錄音的聲學特徵。然後，利用真人錄音的聲學特徵自動生成兩組音訊：一組真實聲波（原始錄音）和一組偽波（合成聲波）。最後，由鑑別器區分真實聲波和偽波。隨著訓練次數的增多，聲波生成器也會愈發“聰明”，直至生成鑑別器也無法區分的偽波，這意味著機器合成的聲音已經和原始錄音相差無幾，從而給使用者帶來更貼近自然的體驗。

（真人原始錄音）

（微軟 HiFiNet 合作聲音）

由微軟 HiFiNet 聲碼器合成的音訊質量更接近真人原始錄音。

▲HiFiNet 聲碼器訓練示意圖

取樣率越高，聲音還原越真實。Azure 神經網路版語音合成聲學模型預設每秒鐘取樣 24,000 次（24 千赫茲），為還原特殊場景中更為複雜、細微的聲音內容，HiFiNet 聲碼器每秒鐘取樣 48,000 次（48 千赫茲），滿足使用者對語音質量的嚴格要求，讓使用者盡享高清語音體驗。

▲音訊取樣頻率與保真度對比示意圖

除語音質量外，HiFiNet 合成速度較之其他模型也有顯著的提升，進一步提升了語音合成的實時率。據 RTF（Real Time Factor，實時率，用來測量語音合成速度的工具）測試結果顯示，HiFiNet 在 GPU 裝置上執行的速度是第一代高效能聲碼器的 3 倍，在 CPU 裝置上執行的速度是第一代高效能聲碼器的 2 倍。

目前，內建 HiFiNet 聲碼器的 Azure 認知服務神經網路版語音合成服務已支援超過 70 多個國家和地區的語言，提供超過 170 個自然逼真的音色供開發者選擇。

有關 HiFiNet 及語音合成的更多內容：

微軟語音釋出升級版 HiFiNet 聲碼器：發音更準更自然、高保真度、合成更快

微軟語音釋出升級版 HiFiNet 聲碼器：發音更準更自然、高保真度、合成更快

微軟 Edge 瀏覽器開發版 87.0.664.8：新增比價等功能

PNY釋出迷你版RTX 3060顯示卡：名字長達73個字！

山靈釋出 M6 21 版 HiFi 音樂播放器：570mW 平衡功率，預售價 2998 元

1MORE 萬魔舒適豆升級版 TWS 耳機發布：269 元，遊戲低延時

微軟 Win11 預覽版 OOBE 開箱體驗更新：做自己的事、配合無間地進行工作、一目瞭然

AMD 釋出 Win10 版網咖顯示卡驅動：簡化安裝包，優化國內熱門網路遊戲

重磅！微軟 Win11 預覽版大量新功能曝光：“開始”選單應用資料夾、工作列拖放、Acrylic 標題欄、新觸控手勢...

微軟 Win11 預覽版 22563 出現重大 Bug：Win + X 導致資源管理器崩潰，解決方案出爐

微軟 Win11 全新設計版檔案資源管理器更深入整合 OneDrive 網盤

Babel 轉碼器：將 ES6 程式碼轉為 ES5

微軟 Edge 瀏覽器將迎來全新下載管理器：可從工具欄管理下載

小米手機 MIUI 12.5 增強版穩定版內測推送：首批支援小米 MIX 4 等，全面流暢，更低功耗

B 站嗶哩嗶哩 iOS 版 6.38.0 更新：支援杜比視界，新增分屏、豎屏模式

微信 iOS 版 8.0.14 更新：可開啟「關懷模式」，文字與按鈕更大更清晰

高通釋出 X70 5G 調變解調器：引入 5G AI 處理器，下載速度達 10Gbps

釘釘 iOS 版 6.3.35 更新：適配蘋果 Apple Watch，可檢視、收、發訊息

下週釋出預覽版，微軟宣佈 Win11 正式版免費升級！

基於javacv的視訊截圖和轉碼（升級版）

微軟正式釋出 HoloLens 2 工業版：保修延長一倍，售價 4950 美元

微軟語音釋出升級版 HiFiNet 聲碼器：發音更準更自然、高保真度、合成更快

相關推薦