1. 程式人生 > >語音合成技術的原理(轉載)

語音合成技術的原理(轉載)

清華大學計算機系智慧技術與系統國家重點實驗室

吳志勇 蔡蓮紅

---- 當 前, 語 音 合 成 的 研 究 已 經 進 入 文 字 - 語 音 轉 換(TTS) 階 段, 其 功 能 模 塊 可 分 為 文 本 分 析、 韻 律 建 模 和 語 音 合 成 三 大 模 塊。 其 中, 語 音 合 成 是TTS 系 統 中 最 基 本、 最 重 要 的 模 塊。 概 括 起 來 說, 語 音 合 成 的 主 要 功 能 是: 根 據 韻 律 建 模 的 結 果, 從 原 始 語 音 庫 中 取 出 相 應 的 語 音 基 元, 利 用 特 定 的 語 音 合 成 技 術 對 語 音 基 元 進 行 韻 律 特 性 的 調 整 和 修 改, 最 終 合 成 出 符 合 要 求 的 語 音。

----語 音 合 成 技 術 經 歷 了 一 個 逐 步 發 展 的 過 程, 從 參 數 合 成 到 拼 接 合 成, 再 到 兩 者 的 逐 步 結 合, 其 不 斷 發 展 的 動 力 是 人 們 認 知 水 平 和 需 求 的 提 高。 目 前, 常 用 的 語 音 合 成 技 術 主 要 有: 共 振 峰 合 成、LPC 合 成、PSOLA 拼 接 合 成 和LMA 聲 道 模 型 技 術。 它 們 各 有 優 缺 點, 人 們 在 應 用 過 程 中 往 往 將 多 種 技 術 有 機 地 結 合 在 一 起, 或 將 一 種 技 術 的 優 點 運 用 到 另 一 種 技 術 上, 以 克 服 另 一 種 技 術 的 不 足。

共 振 峰 合 成

----語 音 合 成 的 理 論 基 礎 是 語 音 生 成 的 數 學 模 型。 該 模 型 語 音 生 成 過 程 是 在 激 勵 信 號 的 激 勵 下, 聲 波 經 諧 振 腔( 聲 道), 由 嘴 或 鼻 輻 射 聲 波。 因 此, 聲 道 參 數、 聲 道 諧 振 特 性 一 直 是 研 究 的 重 點。 在 圖1 所 示 的 某 一 語 音 的 頻 率 響 應 圖 中, 標 有Fp1、Fp2、Fp3 … … 處 為 頻 率 響 應 的 極 點, 此 時, 聲 道 的 傳 輸 頻 率 響 應 有 極 大 值。 習 慣 上, 把 聲 道 傳 輸 頻 率 響 應 上 的 極 點 稱 之 為 共 振 峰, 而 語 音 的 共 振 峰 頻 率( 極 點 頻 率) 的 分 布 特 性 決 定 著 該 語 音 的 音 色。

----

音 色 各 異 的 語 音 具 有 不 同 的 共 振 峰 模 式, 因 此, 以 每 個 共 振 峰 頻 率 及 其 帶 寬 作 為 參 數, 可 以 構 成 共 振 峰 濾 波 器。 再 用 若 幹 個 這 種 濾 波 器 的 組 合 來 模 擬 聲 道 的 傳 輸 特 性( 頻 率 響 應), 對 激 勵 源 發 出 的 信 號 進 行 調 制, 再 經 過 輻 射 模 型 就 可 以 得 到 合 成 語 音。 這 就 是 共 振 峰 合 成 技 術 的 基 本 原 理。 基 於 共 振 峰 的 理 論 有 以 下 三 種 實 用 模 型。

----級 聯 型 共 振 峰 模 型 在 該 模 型 中, 聲 道 被 認 為 是 一 組 串 聯 的 二 階 諧 振 器。 該 模 型 主 要 用 於 絕 大 部 分 元 音 的 合 成。

----並 聯 型 共 振 峰 模 型 許 多 研 究 者 認 為, 對 於 鼻 化 元 音 等 非 一 般 元 音 以 及 大 部 分 輔 音, 上 述 級 聯 型 模 型 不 能 很 好 地 加 以 描 述 和 模 擬, 因 此, 構 築 和 產 生 了 並 聯 型 共 振 峰 模 型。

----混 合 型 共 振 峰 模 型 在 級 聯 型 共 振 峰 合 成 模 型 中, 共 振 峰 濾 波 器 首 尾 相 接; 而 在 並 聯 型 模 型 中, 輸 入 信 號 先 分 別 通 過 幅 度 調 節 再 加 到 每 一 個 共 振 峰 濾 波 器 上, 然 後 將 各 路 的 輸 出 疊 加 起 來。 將 兩 者 比 較, 對 於 合 成 聲 源 位 於 聲 道 末 端 的 語 音( 大 多 數 的 元 音), 級 聯 型 合 乎 語 音 產 生 的 聲 學 理 論, 並 且 無 需 為 每 一 個 濾 波 器 分 設 幅 度 調 節; 而 對 於 合 成 聲 源 位 於 聲 道 中 間 的 語 音( 大 多 數 清 擦 音 和 塞 音), 並 聯 型 則 比 較 合 適, 但 是 其 幅 度 調 節 很 復 雜。 基 於 此 種 考 慮, 人 們 將 兩 者 結 合 在 一 起, 提 出 了 混 和 型 共 振 峰 模 型, 如 圖2 所 示。

----事 實 上, 上 述 三 種 共 振 峰 模 型 在 實 際 中 都 得 到 了 成 功 的 應 用。 例 如:Fant 的OVE 系 統 就 採 用 了 級 聯 型 的 共 振 峰 模 型;Holmes 合 成 器 採 用 的 是 並 聯 型 的 共 振 峰 模 型; 而 最 為 典 型 也 是 最 為 成 功 的Klatt 合 成 器 則 構 築 在 混 合 型 共 振 峰 模 型 的 基 礎 之 上。

----在 漢 語 語 音 合 成 方 面, 研 究 人 員 研 制 出 了 一 些 基 於 共 振 峰 模 型 的 成 功 的 應 用 系 統。 如 社 科 院 語 言 所 的 SIFS 合 成 器、 中 科 院 聲 學 所 的KX 1 系 統 中 基 於Holmes 的 並 聯 型 共 振 峰 合 成 器 模 型, 而 同 樣 由 中 科 院 聲 學 所 開 發 的 第 二 代 共 振 峰 合 成 器KX FSS 則 基 於Klatt 合 成 器。

----共 振 峰 模 型 是 基 於 對 聲 道 的 一 種 比 較 準 確 的 模 擬, 因 而 可 以 合 成 出 自 然 度 比 較 高 的 語 音, 另 外 由 於 共 振 峰 參 數 有 著 明 確 的 物 理 意 義, 直 接 對 應 於 聲 道 參 數, 因 此, 可 以 容 易 利 用 共 振 峰 描 述 自 然 語 流 中 的 各 種 現 象, 並 且 總 結 聲 學 規 則, 最 終 用 於 共 振 峰 合 成 系 統。

----但 是, 人 們 同 時 也 發 現 該 技 術 有 明 顯 的 弱 點。 首 先 由 於 它 是 建 立 在 對 聲 道 的 模 擬 上, 因 此, 對 於 聲 道 模 型 的 不 精 確 勢 必 會 影 響 其 合 成 質 量。 另 外, 實 際 工 作 表 明, 共 振 峰 模 型 雖 然 描 述 了 語 音 中 最 基 本 最 主 要 的 部 分, 但 並 不 能 表 徵 影 響 語 音 自 然 度 的 其 他 許 多 細 微 的 語 音 成 分, 從 而 影 響 了 合 成 語 音 的 自 然 度。 另 外, 共 振 峰 合 成 器 控 制 十 分 復 雜, 對 於 一 個 好 的 合 成 器 來 說, 其 控 制 參 數 往 往 達 到 幾 十 個, 實 現 起 來 十 分 困 難。

----基 於 這 些 原 因, 研 究 者 繼 續 尋 求 和 發 現 其 他 新 的 合 成 技 術。 人 們 從 波 形 的 直 接 錄 制 和 播 放 得 到 啟 發, 提 出 了 基 於 波 形 拼 接 的 合 成 技 術,LPC 合 成 技 術 和PSOLA 合 成 技 術 是 其 中 的 代 表。 與 共 振 峰 合 成 技 術 不 同, 波 形 拼 接 合 成 是 基 於 對 錄 制 的 合 成 基 元 的 波 形 進 行 拼 接, 而 不 是 基 於 對 發 聲 過 程 的 模 擬。

LPC 參 數 合 成

----波 形 拼 接 技 術 的 發 展 與 語 音 的 編、 解 碼 技 術 的 發 展 密 不 可 分, 其 中LPC 技 術( 線 性 預 測 編 碼 技 術) 的 發 展 對 波 形 拼 接 技 術 產 生 了 巨 大 的 影 響。

----LPC 合 成 技 術 本 質 上 是 一 種 時 間 波 形 的 編 碼 技 術, 目 的 是 為 了 降 低 時 間 域 信 號 的 傳 輸 速 率。

----對 於 利 用LPC 合 成 技 術 來 進 行 漢 語 語 音 合 成 和 漢 語 文 語 轉 換 的 研 究, 中 科 院 聲 學 所 在 這 方 面 做 了 大 量 的 工 作。1987 年, 他 們 引 進 了 多 脈 衝 激 勵LPC 技 術,1989 年 又 引 入 矢 量 量 化, 之 後,1993 年, 他 們 引 入 碼 激 勵 技 術, 他 們 的 這 些 工 作 對 於LPC 合 成 技 術 在 漢 語 合 成 方 面 的 運 用 做 出 了 重 要 的 貢 獻。

----LPC 合 成 技 術 的 優 點 是 簡 單 直 觀。 其 合 成 過 程 實 質 上 只 是 一 種 簡 單 的 解 碼 和 拼 接 過 程。 另 外, 由 於 波 形 拼 接 技 術 的 合 成 基 元 是 語 音 的 波 形 數 據, 保 存 了 語 音 的 全 部 信 息, 因 而 對 於 單 個 合 成 基 元 來 說 能 夠 獲 得 很 高 的 自 然 度。

----但 是, 由 於 自 然 語 流 中 的 語 音 和 孤 立 狀 況 下 的 語 音 有 著 極 大 的 區 別, 如 果 只 是 簡 單 地 把 各 個 孤 立 的 語 音 生 硬 地 拼 接 在 一 起, 其 整 個 語 流 的 質 量 勢 必 是 不 太 理 想 的。 而LPC 技 術 從 本 質 上 來 說 只 是 一 種 錄 音 + 重 放, 對 於 合 成 整 個 連 續 語 流LPC 合 成 技 術 的 效 果 是 不 理 想 的。 因 此,LPC 合 成 技 術 必 須 和 其 他 技 術 相 結 合, 才 能 明 顯 改 善LPC 合 成 的 質 量。

----一 種 典 型 的 基 於 單 音 節 和VQLPC( 矢 量 量 化 的LPC) 技 術 的 文 語 轉 換 系 統 原 理 圖 如 圖3 所 示。

PSOLA 合 成 技 術

----20 世 紀80 年 代 末 提 出 的PSOLA 合 成 技 術( 基 音 同 步 疊 加 技 術) 給 波 形 拼 接 合 成 技 術 注 入 了 新 的 活 力。PSOLA 技 術 著 眼 於 對 語 音 信 號 超 時 段 特 徵 的 控 制, 如 基 頻、 時 長、 音 強 等 的 控 制。 而 這 些 參 數 對 於 語 音 的 韻 律 控 制 以 及 修 改 是 至 關 重 要 的, 因 此,PSOLA 技 術 比LPC 技 術 具 有 可 修 改 性 更 強 的 優 點, 可 以 合 成 出 高 自 然 度 的 語 音。

----PSOLA 技 術 的 主 要 特 點 是: 在 拼 接 語 音 波 形 片 斷 之 前, 首 先 根 據 上 下 文 的 要 求, 用PSOLA 算 法 對 拼 接 單 元 的 韻 律 特 徵 進 行 調 整, 使 合 成 波 形 既 保 持 了 原 始 發 音 的 主 要 音 段 特 徵, 又 能 使 拼 接 單 元 的 韻 律 特 徵 符 合 上 下 文 的 要 求, 從 而 獲 得 很 高 的 清 晰 度 和 自 然 度。

----如 何 將PSOLA 技 術 應 用 於 漢 語 文 語 轉 換 系 統, 國 內 許 多 學 校 和 科 研 單 位 對 此 進 行 了 大 量 廣 泛 深 入 的 研 究。 清 華 大 學、 北 方 交 大、 中 科 院 聲 學 所 等 在 對PSOLA 技 術 研 究 的 基 礎 上, 先 後 開 發 出 了 基 於 波 形 拼 接 的 漢 語 文 語 轉 換 系 統, 並 且 對 於 如 何 進 一 步 完 善 該 技 術, 如 何 進 一 步 改 善 合 成 語 音 的 自 然 度 等 都 提 出 了 一 些 具 體 措 施。

----PSOLA 技 術 保 持 了 傳 統 波 形 拼 接 技 術 的 優 點, 簡 單 直 觀, 運 算 量 小, 而 且 還 能 方 便 地 控 制 語 音 信 號 的 韻 律 參 數, 具 有 合 成 自 然 連 續 語 流 的 條 件, 得 到 了 廣 泛 的 應 用。

----但 是,PSOLA 技 術 也 有 其 缺 點。 首 先, PSOLA 技 術 是 一 種 基 音 同 步 的 語 音 分 析/ 合 成 技 術, 首 先 需 要 準 確 的 基 因 周 期 以 及 對 其 起 始 點 的 判 定。 基 音 周 期 或 其 起 始 點 的 判 定 誤 差 將 會 影 響PSOLA 技 術 的 效 果。 其 次,PSOLA 技 術 是 一 種 簡 單 的 波 形 映 射 拼 接 合 成, 這 種 拼 接 是 否 能 夠 保 持 平 穩 過 渡 以 及 它 對 頻 域 參 數 有 什 麼 影 響 等 並 沒 有 得 到 解 決, 因 此, 在 合 成 時 會 產 生 不 理 想 的 結 果。

LMA 聲 道 模 型

----隨 著 人 們 對 語 音 合 成 的 自 然 度 和 音 質 的 要 求 越 來 越 高,PSOLA 算 法 表 現 出 對 韻 律 參 數 調 整 能 力 較 弱 和 難 以 處 理 協 同 發 音 的 缺 陷, 因 此, 人 們 又 提 出 了 一 種 基 於LMA 聲 道 模 型 的 語 音 合 成 方 法。 這 種 方 法 具 有 傳 統 的 參 數 合 成 可 以 靈 活 調 節 韻 律 參 數 的 優 點, 同 時 又 具 有 比PSOLA 算 法 更 高 的 合 成 音 質。

----目 前, 主 要 的 語 音 合 成 技 術 是 共 振 峰 合 成 技 術 和 基 於PSOLA 算 法 的 波 形 拼 接 合 成 技 術。 這 兩 種 技 術 各 有 所 長, 共 振 峰 技 術 比 較 成 熟, 有 大 量 的 研 究 成 果 可 以 利 用, 而 PSOLA 技 術 則 是 比 較 新 的 技 術, 具 有 良 好 的 發 展 前 景。

----過 去 這 兩 種 技 術 基 本 上 是 互 相 獨 立 發 展 的, 現 在 許 多 學 者 開 始 研 究 它 們 兩 者 之 間 的 關 系, 試 圖 將 兩 者 有 效 地 結 合 起 來, 從 而 合 成 出 更 加 自 然 的 語 流。 例 如 清 華 大 學 的 研 究 人 員 進 行 了 將 共 振 峰 修 改 技 術 應 用 於PSOLA 算 法 的 研 究, 並 用 於Sonic 系 統 的 改 進, 研 制 出 了 具 有 更 高 自 然 度 的 漢 語 文 語 轉 換 系 統。

相關推薦

語音合成技術原理(轉載)

清華大學計算機系智慧技術與系統國家重點實驗室吳志勇 蔡蓮紅 ---- 當 前, 語 音 合 成 的 研 究 已 經 進 入 文 字 - 語 音 轉 換(TTS) 階 段, 其 功 能 模 塊 可 分 為 文 本 分 析、 韻 律 建 模 和 語 音 合 成 三 大 模 塊。

使用騰訊語音合成技術生成有聲書

ise 調用接口 enc 廣告 get stream mar cer decode   背景:不知是否在博客園看到的騰訊雲平臺廣告,被AI接口幾個項目吸引住了,其中有個 語音合成  接口在這裏安利一下,還挺好玩。這個接口提供將一段文字轉換成語音的功能,支持中文、英文,遺

方興未艾的語音合成技術與應用

https://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247498490&idx=2&sn=a995453c626c1df20899986f46e0561f&scene=21#wechat_redirect

百度語音合成技術

登入百度AI開發平臺 申請自己的ak 開放平臺上有各種語言支援的開發文件,自學能力差得人,不用擔心,我為你們封裝了語音合成與識別的utils,複製貼上即可使用 package com.czxy.TestSample; import com.baidu.ai

CSDN 特邀 AI 專家李秀林:方興未艾的語音合成技術與應用

“本文為標貝科技聯合創始人&CTO 李秀林 為 11 月 8 日 CSDN AI科技大本營即將釋出的《2018-2019 中國人工智慧產業路線圖》V2.0 版白皮書的專家約稿。版權為CSDN與標貝科技共同所有。 應CSDN邀請,李秀林博士將在2018 AI開發者

5分鐘弄懂:語音識別技術原理

文/張俊博知乎連結:https://www.zhihu.com/question/2039841

全球首個AI合成主播發布,效果以假亂真!揭祕背後技術原理

邊策 李根 發自 凹非寺 量子位 報道 | 公眾號 QbitAI 搜狗又在烏鎮世界網際網路大會上搞了大新聞。 2016年,王小川在正式論壇裡秀出AI同傳,那是機器實時翻譯技術,首次在高規格國際會議上實戰應用。 而這一次,依然世界網際網路大會,搜狗聯手新華社,釋

Docker 核心技術與實現原理(轉載)

原文地址:https://draveness.me/docker 提到虛擬化技術,我們首先想到的一定是 Docker,經過四年的快速發展 Docker 已經成為了很多公司的標配,也不再是一個只能在開發階段使用的玩具了。作為在生產環境中廣泛應用的產品,Docker 有著非常成熟的社群以及大量的使用

DeepSpeech語音轉文字合成技術

DeepSpeech 是百度開發的開源實現庫,它提供了當前頂尖的語音轉文字合成技術。它基於 TensorFlow 和 Python,但也可以繫結到 NodeJS 或使用命令列執行。Mozilla 一直是構建 DeepSpeech 和開源軟體庫的主要研究力量,Mozilla 技

磁盤陣列 RAID 技術原理詳解

十分 單獨 很好 不同的 raid1 miss 和數 會同 帶寬 RAID一頁通整理所有RAID技術、原理並配合相應RAID圖解,給所有存儲新人提供一個迅速學習、理解RAID技術的網上資源庫,本文將持續更新,歡迎大家補充及投稿。中國存儲網一如既往為廣大存儲界朋友提供免費、精

微信掃描二維碼登錄網站技術原理

js對象 hit 適合 ace pass 文件 head src get 微信掃描二維碼登錄網站 網站應用微信登錄開發指南 微信掃描二維碼登錄網站是微信開放平臺下網站應用的一種接口實現的功能。微信開放平臺的網址是 https://open.weixin.qq.com 準

EEPlat PaaS 整體方案及技術原理

-s 支付 popu post tro strong 用戶 雲平臺 clas EEPlat PaaS平臺提供了基於元數據驅動的以配置為主的高速開發平臺,同一時候提供了完整的多租戶實現,各租戶擁有自己的獨立應用和數據庫,租戶間實現了應用和數據的全然隔離。 EEPlat P

[iOS]AVSpeechSynthesizer語音合成

初始化 bsp string span str lan peak with rate 1 #import <AVFoundation/AVFoundation.h> 2 3 // 初始化方法 4 AVSpeechSynthesizer *speech

嶺回歸技術原理應用

方程 及其 時長 原理 cnblogs 自己 文獻 其中 clas 嶺回歸技術原理應用 作者:馬文敏 嶺回歸分析及其SPSS實現方法 嶺回歸分析(RidgeRegression)是一種改良的最小二乘估計方法,它是用於解決在線性回歸分析中自變量

手把手教你玩轉 CSS3 3D 技術轉載

是不是 col 默認 占滿 概念 ebe 說明 adb relative css3的3d起步 要玩轉css3的3d,就必須了解幾個詞匯,便是透視(perspective)、旋轉(rotate)和移動(translate)。透視即是以現實的視角來看屏幕上的2D事物,從而展現3

《深入淺出MyBatis技術原理與實戰》——7. 插件

看到了 5.1 com htm html 而不是 sig stat str 在第6章討論了四大運行對象的運行過程,在Configuration對象的創建方法裏我們看到了MyBatis用責任鏈去封裝它們。 7.1 插件接口 在MyBatis中使用插件,我們必須使用接口Inte

集成Android免費語音合成功能(在線、離線、離在線融合)

com nvi sid 審核 contacts lai 音量 ant demo 集成Android免費語音合成功能(在線、離線、離在線融合),有這一篇文章就夠了(離線)集成Android免費語音合成功能(在線、離線、離在線融合),有這一篇文章就夠了(離在線融合) 轉

pytts3語音合成遇到的中文問題

del utf-8 html 問題 www run 修改 lee logs 在使用pytts3語音合成時,遇到中文語音錯亂。程序代碼本身很簡單,也是網上公認的一種寫法: #coding: UTF-8import pyttsx3; engine = pyttsx3.ini

統計參數語音合成的初學者指南

專註 global 地址 .org 衡量 nco format represent feature 原文地址鏈接:https://shartoo.github.io/texttospeech/ 譯自:A beginners’ guide to statistical p

python解釋執行原理(轉載)

劃分 解釋器 轉換成 http 解釋型 輸出 行程 保護 相對 Python解釋執行原理   轉自:http://l62s.iteye.com/blog/1481421 這裏的解釋執行是相對於編譯執行而言的。我們都知道,使用C/C++之類的編譯性語言編寫的程序