Time-Frequency Networks For Audio Super-Resolution
論文題目:2018_用於音訊超解析度的時頻網路
部落格作者:凌逆戰
部落格地址:https://www.cnblogs.com/LXP-Never/p/12345950.html
摘要
音訊超解析度(即頻寬擴充套件)是提高音訊訊號時域解析度的一項具有挑戰性的任務。最近的一些深度學習方法通過將任務建模為時域或頻域的迴歸問題,取得了令人滿意的結果。在本文中,我們提出了一種新的模型體系結構——時頻網路(TFNet,Time-Frequency Network),這是一種在時域和頻域同時進行監控的深度神經網路。我們提出了一種新的模型體系結構,允許兩個域共同優化。結果表明,我們的方法在數量和質量上都優於目前最先進的方法。
索引術語:頻寬擴充套件,音訊超解析度,深度學習
1、引言
超解析度(SR)是從低解析度(LR)輸入重建高解析度(HR)資料的任務。這是一個具有挑戰性的任務,因為它是ill-posed的性質,特別是當上取樣因子很高的時候。通過處理SR問題,我們可以獲得對資料先驗的理解,並引導相關領域的改進,如壓縮和生成建模。
近年來,影象超解析度演算法在計算機視覺領域得到了廣泛的關注,並將SR建模為一種深度神經網路迴歸任務,取得了顯著的成功。在這項工作中,我們探索了音訊資料的類似SR任務(即學習從LR到HR音訊幀的對映)。為了視覺化重建,在圖1中我們展示了LR輸入、HR重建和ground truth的頻譜圖。
圖1:LR輸入(頻率4kHz以上缺失),HR重構,HR ground truth。我們的方法成功地從LR音訊訊號中恢復了高頻分量。
Li[1]等人提出了一種深度神經網路來學習頻譜幅值從LR到HR的對映,完全忽略缺失的高頻分量的相位。在[2]中,Kuleshov等人提出了一種深度神經網路來直接在時域中學習LR到HR的對映。雖然這些模型顯示了有希望的結果,但每個模型都只在時域或頻域工作,並側重於訊號的不同方面。目前也只有這兩個人提供了程式碼。
為了充分利用時域和頻域資訊,我們提出了時頻網路(TFNet),它是一種深度神經網路,可以選擇何時將時域和頻域資訊用於音訊SR。
乍一看,在頻域和時域建模似乎是一個冗餘的表示;從Parseval定理可知,預測誤差的L2差異,無論是在頻域還是在時域都是完全相同的。然而,從LR到HR在時域或頻域的迴歸解決了一個非常不同的問題。在時域上,它類似於影象的超解析度任務,將音訊塊從LR對映到HR。另一方面,頻域SR與語意影象修復任務類似[3,4]。給定頻譜的低頻分量,輸出高頻分量,如圖2所示。因此,為了充分利用這兩種方法的優點,我們建議在時域和頻域內對音訊SR進行聯合建模。
圖2:影象SR的輸入輸出,語義影象修復,音訊SR的時域和頻域說明。時域中的音訊SR類似於影象SR,其中LR輸入中缺少“edges邊”。另一方面,譜域音訊SR可以看作是譜圖的影象修復,即給定底層低頻“影象”,對剩餘影象進行預測。
2、相關工作
頻帶擴充套件
語音社群將音訊超分辨任務作為頻寬擴充套件進行研究。提出了利用低頻[5]估計高頻分量的各種方法。如線性對映[6,7]、混合模型[8,9,10]、神經網路[11,12,1,2]。
深度神經網路的單影象超解析度
深度卷積神經網路(CNNs)是目前單影象超解析度研究的最新進展。已經提出了許多體系結構[13,14,15]。這些模型都是完全卷積的,並帶有早些時候的skip / redisual連線。
深度神經網路的語義影象修復
深度神經網路在語義影象修復任務中也表現出了較強的效能。利用CNNs,[3,4]證明了預測影象中掩蔽區域的可能性。與超級解析度類似,這些模型也是完全卷積的。從這些模型中獲得靈感,我們的深層網路架構也遵循類似的設計原則。
3、方法
我們將音訊SR定義為迴歸任務,即預測HR音訊幀,$y\in \mathbb{R}^L$,給定LR音訊幀,$x\in \mathbb{R}^{L/R}$,其中$R$是下采樣因子。
3.1 時頻網路
我們提出時頻網路(TFNet),這是一個完全可微的網路,可以端到端的訓練。如圖3所示,設$\Theta $為模型中的所有引數,我們的模型由一個基於全卷積的編碼器-解碼器網路$H(x; \Theta )$構成。對於給定的LR輸入x,H預測HR音訊,重建$\hat{z}$和HR頻譜幅度$\hat{m}$。利用我們提出的頻譜融合層合成最終的輸出。
圖3:時頻網路結構。TFNet同時利用時域和頻域來完成音訊訊號的重構,它包含一個明確建模重構頻譜幅值的分支,而其他的分支建模重構時域音訊。最後將這兩個分支的輸出與我們的頻譜融合層相結合,合成高解析度的輸出。
頻譜融合層
頻譜融合層結合$\hat{z}$和$\hat{m}$輸出最終的重建$\hat{y}$,如下圖所示:
$$\begin{aligned} M=& w \odot|\mathscr{F}(\hat{z})|+(1-w) \odot \hat{m} \\ \hat{y} &=\mathscr{F}^{-1}\left(M e^{j \angle \mathscr{F}(\hat{z})}\right) \end{aligned}$$
其中$\mathscr{F}$表示傅立葉變換,$\odot$是元素的乘法運算,$w$是可訓練引數。
這一層是可微的,可以端到端的訓練。關鍵的優點是,該層可強制網路對波形的頻譜幅度進行建模,而模型的其餘部分可以在時域內建模相位。
我們對網路體系結構的設計是基於這樣的觀察:卷積層只能捕獲區域性關係,特別擅長捕獲視覺特徵。當我們利用短時傅立葉變換對賦值和相位進行視覺化處理時,幅值明顯的視覺結構,而相位沒有,因此,我們只在譜域中對幅值進行建模。
頻譜複製器
如前所述,卷積層通常捕獲區域性關係(即,輸入-輸出關係的範圍受到感受野的限制)。這導致了一個問題,因為我們想要輸出的高頻分量依賴於輸入的低頻分量。例如,當向上取樣4倍時,接受域至少需要為總頻率bin的3/4,這將需要非常大的核心或許多層。為了解決接受域的問題,我們將可用的低頻頻譜複製到高頻頻譜中,高頻頻譜最初都是零,如圖4所示。
圖4:在4x SR任務上的頻譜複製層圖解。低頻分量被複制四次以替換零
損失函式
為了訓練我們的網路,我們利用$l_2$重建損失和權重衰減。總的目標函式是最小化下面關於$\Theta $的損失函式
$$公式1:\mathcal{L}=\sum_{(x, y) \in \mathcal{D}}\|y-\hat{y}(x)\|_{2}+\lambda\|\Theta\|_{2}$$
其中$D$是所有(LR,HR)對的訓練集,$\lambda $是正則化器的加權超引數,在我們的所有實驗中選擇為0:0001。
3.2、實現細節
預處理
對於訓練,我們進行了沉默過濾以丟棄能量閾值為0.05以下的序列脈衝,計算結果A。我們發現這提高了訓練的收斂性,並穩定了梯度。對於測試和評估,我們不過濾沉默。
網路架構
我們的網路由兩個具有相似架構的分支組成;時域分支和頻域分支。為了公平的比較,我們的網路遵循了AudioUNet[2]的架構設計模式,包括編碼器和解碼器塊。為了保持模型大小大致相同,每個分支中的過濾器數量減半。我們的網路以8192段音訊作為輸入。
對於頻域分支,我們對序列進行離散傅立葉變換(DFT)。由於所有的音訊訊號都是實數,所以我們拋棄了所有負相位的分量,得到了4097個傅立葉係數。最後,求這些係數的大小。
如前所述,輸入的高頻分量為零,因此使用頻譜複製器,我們用低頻分量的副本替換零值。具體來說,對於4x上取樣,我們在1025到2048、2049到3072和3073到4096重複第1個分量到第1024個分量。第0個分量(直流分量)直接通過網路,最後融合。
訓練細節
我們使用流行的Adam 優化器[16]來訓練我們的網路。初始學習速率為$3e^{-5}$,採用多項式學習速率衰減排程,學習速率為0.5。我們所有的模特都經過了50萬步的訓練。
4、實驗
資料集和準備
我們在兩個資料集上評估我們的方法:VCTK資料集[17]和Piano資料集[18]。
VCTK資料集包含來自109個以英語為母語的人的語音資料。每個說話人會讀出大約400個不同的句子,每個說話人的句子也不同,總共有44個小時的語音資料。
根據之前的工作[2],我們將資料分為88%的培訓6%的驗證和6%的測試,沒有說話人重疊。
對於資料集中的每個檔案,我們通過以目標較低取樣率的奈奎斯特速率執行帶截止頻率的低通濾波器,將音訊重取樣到較低的取樣率。然後通過雙三次插值將LR序列向上取樣到原始速率。為了編制訓練(LR, HR)對,我們從重取樣訊號及其對應的原始訊號中提取了8192個重疊度為75%的樣本長度子序列。
對於取樣速率為16kHz的VCTK資料集,它對應的子序列約為500ms,每個子序列的起始距離為125ms。剩下的50%的序列會被丟棄,因為得到的資料集太大,無法有效地訓練。
此外,為了瞭解模型的效能是否會受到資料多樣性的影響,我們建立了一個新的資料集(VCTKs),它只包含說話者VCTK的一個子集。這包括大約30分鐘的演講。音訊資料以16kHz的取樣率提供。
鋼琴資料集包含10小時的貝多芬奏鳴曲,取樣率為16kHz。由於音樂的重複性,我們在檔案級別上對Piano資料集進行了分割以進行公平的評估。
評估
為了進行評價,我們計算了信噪比(SNR)和對數譜距離(LSD)的相似性度量。
在時域內,信噪比捕獲了預測和fround-truth資料之間的加權差。另一方面,LSD在頻域[19]捕獲預測與fround-truth之間的差異。
$$公式2:\mathrm{LSD}(y, \hat{y})=\frac{10}{L} \sum_{l=1}^{L}\left\|\log _{10} \mathscr{F}\left(y_{l}\right)-\log _{10} \mathscr{F}\left(\hat{y}_{l}\right)\right\|_{2}$$
其中下標$l$表示音訊短視窗段的索引。
結果
根據表1中[1,2]的結果,我們將我們的方法與三個不同的基線、一個簡單的雙三次插值和兩個深度網路方法進行了比較。特別地,我們實驗了不同的下采樣率,從4x開始,在這裡質量的下降變得清晰可見。對於VCTK,我們的方法在4倍上取樣的情況下比基線方法的信噪比大約高出1.5dB。8倍上取樣甚至比基線 6倍上取樣結果高1.5dB SNR。在Piano資料集上,我們的方法效能與基線方法相當。需要注意的是,在[2]中的引數數量與我們的模型相同;這進一步證明了我們的model架構在表達上更加有效。
表1:對不同上取樣率下的測試集進行定量比較。左/右結果為信噪比/LSD。
表2:消融研究,評估時域和譜域各分支的效能。左/右結果為信噪比/LSD。
細節分析
此外,為了確認我們的網路架構同時利用了時域和頻域,我們進行了消融(ablation)研究。我們通過移除時域或頻域分支來評估模型效能,如表2所示。對於譜支,我們假設重構時高頻分量為零相位。
5、結論與未來工作
本文提出了一種時頻網路(TFNet),這是一種深度卷積神經網路,利用時域和頻域來實現音訊的超分辨。與現有方法相比,我們的新型頻譜複製和融合層具有更好的效能。最後,TFNet已經證明了具有冗餘表示有助於對音訊訊號進行建模。我們認為該方法的經驗結果是有趣的和有前途的,這為進一步的理論和數值分析提供了依據。此外,我們希望將此觀察推廣到其他音訊任務,例如音訊生成,目前最先進的WaveNet[20]是一種時域方法。
文獻
[1] Kehuang Li, Zhen Huang, Yong Xu, and Chin-Hui Lee,“Dnn-based speech bandwidth expansion and its application to adding high-frequency missing features for automatic speech recognition of narrowband speech,” in Proc. INTERSPEECH, 2015.
[2] Volodymyr Kuleshov, S Zayd Enam, and Stefano Ermon,“Audio super-resolution using neural networks,”, 2017.
[3] Deepak Pathak, Philipp Kr¨ahenb¨uhl, Jeff Donahue,Trevor Darrell, and Alexei Efros, “Context encoders:Feature learning by inpainting,” in Computer Vision and Pattern Recognition (CVPR), 2016.
[4] Raymond A. Yeh, Chen Chen, Teck Yian Lim,Schwing Alexander G., Mark Hasegawa-Johnson, and Minh N. Do, “Semantic image inpainting with deep generative models,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, equal contribution.
[5] Bernd Iser and Gerhard Schmidt, “Bandwidth extension of telephony speech,” Speech and Audio Processing in Adverse Environments, pp. 135–184, 2008.
[6] Yoshihisa Nakatoh, Mineo Tsushima, and Takeshi Norimatsu,“Generation of broadband speech from narrowband speech using piecewise linear mapping,” in Fifth European Conference on Speech Communication and Technology, 1997.
[7] Yoshihisa Nakatoh, Mineo Tsushima, and Takeshi Norimatsu,“Generation of broadband speech from narrowband speech based on linear mapping,” Electronics and Communications in Japan (Part II: Electronics), vol. 85,no. 8, pp. 44–53, 2002.
[8] Geun-Bae Song and Pavel Martynovich, “A study of hmm-based bandwidth extension of speech signals,” Signal Processing, vol. 89, no. 10, pp. 2036–2044, 2009.
[9] Hyunson Seo, Hong-Goo Kang, and Frank Soong, “A maximum a posterior-based reconstruction approach to speech bandwidth expansion in noise,” in Acoustics,Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014, pp. 6087–6091.
[10] Saeed Vaseghi, Esfandiar Zavarehei, and Qin Yan, “Speech bandwidth extension: Extrapolations of spectral envelop and harmonicity quality of excitation,” in Acoustics, Speech and Signal Processing, 2006. ICASSP 2006 Proceedings. 2006 IEEE International Conference on. IEEE, 2006, vol. 3, pp. III–III.
[11] Juho Kontio, Laura Laaksonen, and Paavo Alku, “Neural network-based artificial bandwidth expansion of speech,” IEEE transactions on audio, speech, and language processing, vol. 15, no. 3, pp. 873–881, 2007.
[12] Bernd Iser and Gerhard Schmidt, “Neural networks versus codebooks in an application for bandwidth extension of speech signals,” in Eighth European Conference on Speech Communication and Technology, 2003.
[13] Chao Dong, Chen Change Loy, Kaiming He, and Xiaoou Tang, “Image super-resolution using deep convolutional networks,” IEEE Trans. Pattern Anal. Mach.Intell., vol. 38, no. 2, pp. 295–307, Feb. 2016.
[14] Jiwon Kim, Jung Kwon Lee, and Kyoung Mu Lee, “Accurate image super-resolution using very deep convolutional networks,” in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR Oral), June 2016.
[15] Wei-Sheng Lai, Jia-Bin Huang, Narendra Ahuja, and Ming-Hsuan Yang, “Deep laplacian pyramid networks for fast and accurate super-resolution,” in IEEE Conference on Computer Vision and Pattern Recognition,2017.
[16] Diederik Kingma and Jimmy Ba, “Adam: A method for stochastic optimization,” arXiv preprint arXiv:1412.6980, 2014.
[17] Junichi Yamagishi, “English multi-speaker corpus for cstr voice cloning toolkit,” http://homepages.inf.ed.ac.uk/jyamagis/page3/page58/page58.html, 2012.
[18] Soroush Mehri, Kundan Kumar, Ishaan Gulrajani,Rithesh Kumar, Shubham Jain, Jose Sotelo, Aaron Courville, and Yoshua Bengio, “Samplernn: An unconditional end-to-end neural audio generation model,”2016, cite arxiv:1612.07837.
[19] Augustine Gray and John Markel, “Distance measures for speech processing,” IEEE Transactions on Acoustics,Speech, and Signal Processing, vol. 24, no. 5, pp.380–391, 1976.
[20] Aron van den Oord, Sander Dieleman, Heiga Zen,Karen Simonyan, Oriol Vinyals, Alexander Graves, Nal Kalchbrenner, Andrew Senior, and Koray Kavukcuoglu,“Wavenet: A generative model for raw audio,” in Arxiv,2016.
&n