媽耶,擺脫機器音,二次宅的歌姬女友徹底活了
二次宅們,你們的虛擬歌姬女友/偶像可以真正出道了。
最近,一家日本公司展示了他們在虛擬歌姬上使用的新開發語音合成技術,效果驚豔,幾乎聽不出虛擬歌姬歌聲中那“面癱”式的機械音,現在的歌聲有起承轉合,有氣息聲,更有力度,能讓你在腦海中自然腦補它的表情。
這項語音合成技術目前可以支援日語、中文和英語。先放出兩個技術演示視訊,你感受下每段視訊裡舊技術、新技術以及新技術合成後的比對效果。
引用網友剋制的評價就是“延伸高頻低頻,銜接連貫柔和”,近乎人聲啊。
對了,聽出來是哪位歌姬的聲音了嗎?佐藤莎莎拉,這個在 2013 年面世的姑娘,近幾年已經鮮少有它的新聞了,但這次隨著 AI 語音合成的出現,讓宅男們大呼“老婆重生了”。
等不及了,再來欣賞一曲中文版的《愛情轉移》:
是不是覺得要甩人類的修音歌手好幾條街?skr.
反正大部分激動的二次宅朋友們“瘋遼”,一眼望去,評論全部都是目瞪口呆jpg.
如此讓二次宅感到炸裂的技術究竟如何做到,幕後操作者又是誰?
一個基本事實是,虛擬歌姬佐藤莎莎拉是日本 CeVIO 公司在 2013 釋出的 CeVIO Creative Studio 聲音創作軟體中的虛擬角色。
公開資料顯示,CeVIO Creative Studio 是基於 hts engine 引擎作成的新型語音和歌唱合成的軟體,在演算法本質上與 VOCALOID & UTAU 等軟體的大聲庫“拼接演算法”不同,因此只是較小的聲庫,但語音和歌唱可以簡單而自然地合成,語音合成可以調整引數使虛擬歌姬說話更加接近人聲,此外,還會自動加入呼吸聲並自動調教。
但這次的技術應該是基於新版的合成引擎,由 CeVIO 的開發方 Techno-Speech 公司與名古屋工業大學國際音聲言語技術研究所共同合作。Techno-Speech 在官方新聞稿中稱,通過深度學習技術學習特定歌唱者的聲質、語癖、演唱風格,並進行合成使之可以演唱任意的歌詞和樂譜,只需歌唱者進行約 2 個小時的演唱就可以獲取資料。
雲知聲 AI labs 研發總監告訴 AI科技大本營,上述音訊中舊的語音樣例應是傳統引數合成技術,缺點是合成聲音的質量低,機械音較明顯。而新語音樣例藉助深度學習技術,使得引數建模精度有明顯提升,同時,可能使用最新的 WaveNet 聲碼器,使得合成音質有明顯的提升。
另外,與合成自然說話的聲音相比,合成歌聲的技術要求是不是更高?
上述語音合成專家表示,兩者都是資料驅動,但歌唱合成的韻律變化性反而沒有自然說話時變化多端,這對資料量的要求也相應要小。歌唱合成需要很精準的韻律恢復,輸入的是樂譜,而樂譜中已有很明確的韻律描述,比如某個字應該發多長音、發什麼調,都可以通過規則計算出來,並根據結果對合成語音進行調整,從而不會有走調現象。反之,如果韻律恢復不準確,就會有明顯走調現象。
至於新合成技術更詳細的研究成果,Techno-Speech 公司將在 2019 年 3 月的日本聲學學會春季會議上進行公佈。Techno-Speech 公司還稱,屆時虛擬歌姬的歌唱水平會有飛躍性的提升。此外,該技術可能的應用還包括以下八個方面:
藝術家歌聲的復現(包括死者的聲音)
用於音樂製作和遊戲開發
虛擬 YouTubers 的視訊流/直播活動
虛擬演員的後期錄製系統
AI 或語音對話系統的發聲模組
為外語/歌唱教育生成靈活的參考語音
用於 ALS 或喉癌患者的語音裝置
護理設施的數字標牌
從作詞、作曲到演唱,AI 技術帶來的能量毋庸置疑。
也許你還記得去年 9 月底微軟小冰 diss 傳統虛擬歌姬的事,當時前者高調宣稱後者的技術過時,虛擬歌姬的調教技巧將不再具有價值,這引起了 V 家粉絲的集體抵制並迫使小冰道歉。
雖然這是營銷層面的問題,但在技術上,新舊技術並不完全割裂,而是相互融合,深度技術的使用可以節省調教師的很多時間。或許,我們也會很快看到初音未來、洛天姬等虛擬歌姬靠 AI 技術迎來突破。
上個月,一位日本 35 歲青年與虛擬女友初音未來舉辦了婚禮,結婚理由是被 MIKU 的歌聲治癒,遇到 MIKU 隨即墜入“愛河”,十三年來不曾變心。
要是其他虛擬歌姬都有了現在這樣細膩的歌聲,二次宅們不更瘋狂?有點不敢想。
(*本文為 AI科技大本營原創稿件,轉載請聯絡微信 1092722531)
◆
推薦
◆
推薦閱讀
點選“閱讀原文”,開啟APP 閱讀更順暢。