1. 程式人生 > >[論文筆記] Phonetic posteriorgrams for many-to-one voice conversion without parallel data training

[論文筆記] Phonetic posteriorgrams for many-to-one voice conversion without parallel data training

基於PHONETIC POSTERIORGRAMS和非並行資料的多對一語音轉換

摘要

本文提出了一種利用非並行訓練資料進行語音轉換的新方法。該想法是通過從與說話者無關的自動語音識別(SI-ASR)系統獲得的語音後驗語音(PPG)來在揚聲器之間建立橋接。我們假設這些PPG可以表示說話者標準化空間中的語音清晰度並且獨立地對應於該段語音的source speaker。所提出的方法首先獲得目標語音的PPG。然後,使用基於深度雙向長短時間記憶的迴圈神經網路(DBLSTM)結構來學習目標語音的聲學特徵之間和PPG的關係。要轉換任意的一段源語音,需要從相同的SI-ASR獲得其PPG並將它們饋送到訓練好的DBLSTM中以生成轉換語音。我們的方法有兩個主要優點:1)不需要並行的訓練資料; 2)訓練好的模型可以將任意一個人的語音轉換成目標說話人的語音。實驗表明,我們的方法與最先進的系統有相同或更好的語音質量及說話人相似度。

1 導論

語音轉換(VC)旨在修改一個人的語音,使其聽起來好像是另一個人所說的。 VC可以廣泛應用於許多領域,包括計算機輔助語音矯正系統的定製反饋,為語音障礙專案開發個性化助聽器,用各種人的聲音進行電影配音等。

典型的VC訓練如下工作:首先對齊源音訊和目的音訊中具有相同內容的語音段(例如,幀)。然後,找到從源聲學特徵到目標聲學特徵的對映。許多以前關於VC的模型的輸入依賴於並行訓練資料,也即:輸入資料由源說話者音訊和說出相同句子的目標說話者音訊成對出現。 Stylianou等人。 [1]提出了一種基於高斯混合模型(GMM)的連續概率變換方法。 Toda等人. [2]通過使用全域性方差來緩解過度平滑效應,改善了基於GMM的方法的效能。吳等人. [3]提出了一種基於非負矩陣分解的方法,使用語音範例直接合成轉換後的語音. Nakashika等. [4]使用深度神經網路(DNN)來對映高階空間中的源和目標。孫等人。 [5]提出了一種基於深度雙向長短時記憶的迴圈神經網路(DBLSTM)方法,通過使用聲譜特徵及其上下文資訊來模擬源語音和目標語音之間的關係。

所有上述方法都提供了相當好的結果。 但是,實際上,並行資料並不容易獲得。 因此,一些研究人員提出了使用非並行資料的VC方法,這是一個更具挑戰性的問題。 大多數這些方法都專注於尋找更好的幀對齊方法。 Erro等. [6]提出了一種迭代對齊方法,用於配對來自非平行音訊的等效聲學向量。 陶等人. [7]提出了一種有監督資料對齊方法,其中語音資訊被用作對齊期間的限制。 Silen等人. [8]通過將非並行資料與迭代對齊演算法相結合,擴充套件了基於動態核的部分'最大二乘迴歸方法. Benisty等. [9]使用時間上下文資訊來提高非並行資料的迭代對齊精度。

不幸的是,實驗結果[6-9]表明,使用非並行資料的VC的效能不如使用並行資料的VC的效能好。 這種結果是合理的,因為很難使非平行對齊與平行對齊一樣準確。 Aryal等. [10]提出了一種完全不同的方法,利用electromagnetic articulography (EMA)來估計發音行為。 由於認為不同的發言者在說出相同的口語內容時具有相同的發音行為(如果他們的發音區域被標準化),作者將標準化的EMA特徵作為源和目標發言者之間的橋樑。 在對EMA特徵與目標說話人的聲學特徵之間的對映建模之後,可以通過使用源說話人的EMA特徵驅動訓練模型來實現VC。

我們的方法受到[10]的啟發。然而,我們使用Phonetic PosteriorGrams(PPG)來代替很難得到的EMA特徵來在說話人之間架起橋樑。 PPG是一個time-versus-class矩陣,表示每個語音類別在一段音訊的每個特定時間幀的後驗概率[11,12]。我們提出的方法通過採用獨立於說話者的自動語音識別(SI-ASR)系統來產生PPG,以均衡說話者差異。然後,我們使用DBLSTM結構來模擬所獲得的PPG與目標講話者的相應聲學特徵之間的對映,以用於語音引數生成。最後,我們通過使用源說話人的PPG(從相同的SI-ASR獲得)驅動訓練好的DBLSTM模型來執行VC。請注意,我們沒有在VC中使用來自SI-ASR的PPG背後的任何潛在語言資訊。我們提出的方法具有以下優點:1)不需要並行訓練資料; 2)不需要對齊過程(例如,DTW),這避免了可能的對齊誤差的影響; 3)只要目標講話者被固定(如多對一轉換),訓練好的模型就可以應用於任何其他源說話者。但對於具有並行訓練資料的最先進方法,訓練有素的模型僅適用於特定的源揚聲器(如一對一轉換)。

本文的其餘部分安排如下:第2節介紹了一個先進的VC系統,它依賴於並行訓練資料作為我們的基線。 第3節描述了我們提出的使用PPG的VC方法。 第4節介紹了我們提出的方法與基線方法的實驗和比較。 第5節總結了本文。

2 baseline:基於DBLSTM和並行資料的語音轉換

基線方法基於DBLSTM框架,該框架使用並行資料進行訓練[5]

2.1 DBLSTM的基本框架

如圖1所示,DBLSTM是序列到序列對映模型。 中間部分,左部分和右部分(用“t”,“t-1”和“t + 1”標記)分別代表當前幀,前一幀和後一幀。 圖1中的每個方塊表示一個memory block,其包含自連線的儲存單元和三個可以分別提供寫,讀和復位操作的門單元(即輸入,輸出和忘記門)。 此外,每層的雙向連線可以在前向和後向兩個方向上充分利用上下文資訊。

DBLSTM網路架構包括記憶體塊和迴圈連線,可以在更長的時間記憶體儲資訊,並學習最佳的上下文資訊量[5,13]。

2.2 訓練階段和轉換階段

baseline方法分為訓練階段和轉換階段,如圖2所示。

在訓練階段,通過STRAIGHT分析[14]提取譜包絡。 提取Mel-cepstral係數(MCEP)[15]以表示頻譜包絡,然後通過動態時間規整(DTW)對齊來自源語音和目標語音的相同句子的MCEP特徵。 然後,源和目標語音的成對MCEP特徵被視為訓練資料, 被反向傳播演算法(BPTT)用來訓練DBLSTM模型。

在轉換階段,首先為一個源語音提取基頻(F0),MCEP和非週期分量(AP)。 然後,按照如下步驟生成轉換後的語音的引數:通過DBLSTM模型完成源MCEP-->目的MCEP的對映。 通過源語音和目標語音的均值和標準差來轉換Log F0。 AP被直接複製。 最後,STRAIGHT聲碼器用於合成語音波形。

2.3 侷限

儘管其效能良好,但基於DBLSTM的方法具有以下侷限性:1)它依賴於並行的訓練資料,獲取成本高昂; 2)DTW誤差對VC輸出質量的影響是不可避免的。

3 基於PPGs的語音轉換

為了解決baseline的侷限性,我們提出了一種基於PPG的方法,前提是我們認為從SI-ASR系統獲得的PPG與特定speaker相互獨立,而是代表著全域性的特徵。

3.1 概述

如圖3所示,所提出的方法分為三個階段:訓練階段1,訓練階段2和轉換階段。 SI-ASR模型的作用是獲得輸入語音的PPG。 訓練階段2學習目標說話者的PPG和MCEP特徵之間的關係,然後生成語音引數。 轉換階段利用訓練好的DBLSTM模型將利用VC的源語音PPG(從相同的SI-ASR獲得)獲得最終的轉換語音輸出。 PPG的計算和三個階段將在以下小節中介紹。

3.2 Phonetic PosteriorGrams (PPGs)

PPG是一個時間x-類別y矩陣,表示每個發音類別在每段音訊中的每個特定時間幀的後驗概率[11,12]。 發音類別可以指單詞,音素或senone。 在本文中,我們將senones視為發音類別。 圖4示出了口頭短語“particular case”的PPG表示的示例。

我們相信從SI-ASR獲得的PPG可以表示在說話者標準化空間中的語音清晰度並且獨立地對應於語音內容的說話者。 因此,我們將這些PPG視為源和目標發言者之間的聯絡橋樑。

3.3 訓練階段1 和 2

在訓練階段1中,使用多說話人ASR語料庫訓練SI-ASR系統以生成PPG。 下面通過一句例子來說明訓練過程。 輸入是第t幀的MFCC特徵向量,表示為Xt。 輸出是後驗概率的向量Pt =(p(s | Xt)| s = 1; 2;···; C),其中p(s | Xt)是每個發音類別s的後驗概率。

如圖5所示,階段2訓練DBLSTM模型(語音引數生成模型)以獲得PPG和MCEP序列之間的對映關係。 對於來自目標講話者的給定音訊序列,t表示該序列的幀的下標索引。 輸入是PPG(P1;···; Pt;···; PN),由訓練的SI-ASR模型計算得到。 輸出層的理想值是從目標語音中提取的MCEP序列(Y1T;···; YtT;···; YNT)。 輸出層的實際值是(Y1R;···; YtR;···; YNR)。 訓練階段2的成本函式是

通過第2節中提到的BPTT技術訓練該模型以最小化成本函式。注意,DBLSTM模型僅使用目標說話者的MCEP特徵和與說話者無關的PPG進行訓練,而不使用任何其他語言學資訊。

3.4 轉換階段

在轉換階段,log F0和AP的轉換與baseline模型的轉換方法相同。 首先,為了獲得轉換後的MCEP,提取源語音的MFCC特徵。 然後,將MFCC特徵輸入訓練好的SI-ASR模型中獲得PPG。 之後,再用訓練好的DBLSTM模型將PPG轉換為MCEP。 最後,聲碼器使用轉換後的MCEP和轉換後的日誌F0和AP來合成輸出語音。

4 實驗

4.1 實驗設定

我們用於VC的資料是CMU ARCTIC語料庫[16]。 用它進行性別內轉換實驗(男性對男性:BDL至RMS)和跨性別轉換實驗(男性對女性:BDL至SLT)。baseline方法使用源和目標說話者的並行語音,而我們提出的方法僅使用目標說話者的語音進行模型訓練。

訊號採用單通道,取樣率為16kHZ,視窗為25 ms,每5 ms移位一次。 聲學特徵,包括譜包絡,F0(1維)和AP(513維)由STRAIGHT分析[14]提取。 39階MCEP會加上對數能量以表示譜包絡。

我們分別實現了兩個系統進行比較:

在基於PPG的方法中,SI-ASR系統使用Kaldi語音識別工具包[17]和TIMIT語料庫[18]實現。 該模型使用DNN架構,具有4個隱藏層,每個隱藏層包含1024個單元。 Senones被視為PPG的發音類。 Senone的數量是131,這是通過在訓練階段1中的聚類獲得的.SI-ASR的硬體配置是雙Intel Xeon E5-2640,8核,2.6GHZ。 訓練時間約為11小時。

然後,採用DBLSTM模型來對映PPG序列和MCEP序列的關係以用於語音引數生成。 該實現基於機器學習庫CURRENNT [19]。 每層中的單元數分別為[131 64 64 64 64 39],其中每個隱藏層包含一個前向LSTM層和一個後向LSTM層。 BPTT用於訓練該模型,學習率為1.0×10-6,動量為0.9。 使用NVIDIA Tesla K40 GPU加速了DBLSTM模型的訓練過程,100個句子訓練集需要大約4個小時。

基於DBLSTM的baseline方法具有相同的模型配置,但其輸入僅具有39個維度(而不是131個)。 100個句子訓練集需要大約3個小時。

4.2 客觀評測

Mel-cepstral失真度(MCD)用於測量轉換到目標語音的接近程度。 MCD是轉換後的語音的MCEP與目標語音MCEP之間的歐幾里德距離,表示為

其中N是MCEP的維度(不包括能量特徵)。 c_d和c^converted_d分別是目標和轉換後的MCEP的第d個係數。

為了探索訓練資料大小的影響,使用不同數量的訓練資料5,20,60,100和200句訓練所有系統。 對於baseline model,訓練資料由來自源和目標發言者的平行句子對組成。 對於本文提出的方法,訓練資料僅包括來自目標說話者的句子。 測試資料集是來自源說話者的80個句子。

圖6和圖7分別顯示了男 -> 男和男 -> 女實驗的結果。 如圖所示,當訓練大小為5,20和60個句子時,MCD值隨著資料大小的增加而變小。 當訓練大小大於60個句子時,MCD值趨於收斂。 結果表明,基線方法和提出的方法在客觀評估中具有相似的效能。

4.3 主觀評估

我們進行了平均意見得分(MOS)測試和ABX偏好測試作為主觀評估,用於測量轉換語音的自然度和說話人相似度。 100個句子用於訓練每個系統,隨機選擇10個句子(不在訓練集中)進行測試.21個參與者被要求進行MOS測試和ABX測試。這兩個測試的問卷和一些樣本可以訪問https://sites.google.com/site/2016icme/

在MOS測試中,要求聽眾以5分制評分轉換語音的自然性和清晰度。 MOS測試的結果顯示在圖8中。基線和基於PPG的方法的平均得分分別為3.20和3.87。

對於ABX偏好測試,要求聽眾選擇轉換的語音A和B(由兩種方法生成)哪種聽起來更像是目標講話者的錄音X(或者選擇no preference)。 每對A和B都被shuffle以避免喜好偏見。 如圖9所示,基於PPG的方法通常優於基線方法。

MOS測試和ABX測試的結果表明,我們提出的基於PPG的方法在語音質量和說話人相似性方面都比基線方法表現更好。 可能的原因包括:1)基於PPG的方法不需要對齊(例如,DTW),這避免了可能的對齊誤差造成的影響; 2)僅使用說話者標準化的PPG和目標說話者的聲學特徵來訓練所提出的方法的DBLSTM模型。 這最大限度地減少了源說話者特有訊號的干擾。