全球首個AI合成主播發布,效果以假亂真!揭祕背後技術原理
邊策 李根 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
搜狗又在烏鎮世界網際網路大會上搞了大新聞。
2016年,王小川在正式論壇裡秀出AI同傳,那是機器實時翻譯技術,首次在高規格國際會議上實戰應用。
而這一次,依然世界網際網路大會,搜狗聯手新華社,釋出的是一項名為AI合成主播的技術。
這項新技術,可比AI同傳所需的語音識別、機器翻譯更復雜,需要的AI能力更全面。
直白言之,就是“克隆”出與真人主播擁有同樣播報能力的“分身”。
此前,類似技術嘗試的有,商業化產品釋出的無。
新華社給出評價:
這不僅在全球AI合成領域實現了技術創新和突破,更是在新聞領域開創了實時音視訊與AI真人形象合成的先河。
這究竟是一項怎樣的技術?
AI合成主播
其實所謂“AI合成”,主要強調了其技術原理。
“AI合成主播”是通過提取真人主播新聞播報視訊中的聲音、脣形、表情動作等特徵,運用語音、脣形、表情合成以及深度學習等技術聯合建模訓練而成。
該項技術要能夠將所輸入的中英文文字自動生成相應內容的視訊,並確保視訊中音訊和表情、脣動保持自然一致,展現與真人主播無異的資訊傳達效果。
如果從落地場景去看,就是喜聞樂見的虛擬主播。
但在此之前,出現在大眾媒體上的虛擬主播,多半隻有聲音,或者匹配一個量身定製的虛擬形象。
比如微軟小冰在東方衛視擔任天氣預報員,就是如此。
不過搜狗的“AI合成主播”,講究的是以假亂真
△ 搜狗AI合成主播效果
如果沒有提前告知,是不是難辨真假虛實?
要實現這樣的效果,2大要求缺一不可:
一、高逼真度。要能夠自動生成:語音、表情、脣動等資訊完全一致的自然視訊,並已達到商用級別。
二、低成本的個性化定製。小資料的學習模型,使用少量使用者真實音視訊資料,快速遷移生成虛擬的分身模型,快速定製出高逼真度的分身模型。
最後,使用時輸入一段文字,即可生成與真人無異的同步音視訊。
聽起來不難,實現卻要經歷“九九八十一難”。
人前近乎炫技的綜合能力,幕後是一項又一項來不得半點馬虎的小技術達成。
技術原理
背後包含了2大AI引擎。
一是語音合成引擎。在語音合成引擎中,基於使用者少量音訊資料,使用搜狗個性化語音合成技術,快速學習使用者音色、韻律、情感等多維度特徵,建立輸入文字與輸出音訊資訊的關聯。
另一個是影象生成引擎。使用搜狗人臉識別、三維人臉重建、表情建模等技術對人臉表情動作進行特徵學習和建模,建立輸入文字、輸出音訊與輸出視覺資訊的關聯對映,生成輸出分身視訊。
最後,2大引擎協作打磨,最終才能實現“AI合成主播”——能夠逼真模擬人類說話的聲音、嘴脣動作和表情,並將三者自然匹配,做到惟妙惟肖,讓機器以更逼真自然的形象呈現在使用者面前。
應用場景
雖然媒體領域應用,就已足夠驚人。
因為和真人主播相比,“AI合成主播”能夠不知疲倦地工作24小時,同時還掌握多國語言,大大提升效率、降低成本。
甚至寫好文字稿,“ AI合成主播”就能即可播送了——還不會有口誤或NG.
但“AI合成主播”出現,更是讓個性化內容生成的門檻大為降低,娛樂、醫療健康、教育、法律等多個領域和場景,無一不適用。
虛擬教師、虛擬醫生,虛擬客服等需要人類參與的內容表達場景,都能發揮價值。
當然,To B商業應用居多,但如果你想試,搜狗方面稱,在手機上藉助“搜狗制音坊”小程式,也能通過錄制使用者一段講話,讓其轉化為各種名人的聲音——這就是語音合成技術在作用。
視覺方面的合成也能試,比如秒變吳彥祖:
總之,技術已經ready,就看怎麼找場景落地了。
外媒評價
此外,因為史無前例,所以這個“AI合成主播”,確實也讓外媒對中國AI驚歎了一把。
《南華早報》評價,知名主播在新聞製作中的稀缺資產,現在通過AI,克隆而成的“他們”有能力一天工作24小時。
CNET稱:搜狗技術支撐,新華社亮相了新主播,不細看不知道不是真人。
Theverge也評價:AI開始進入官方新聞播報這樣的場景,說明技術已不是早期階段了。
總之,對一家中國公司的AI技術進展如此應用如斯,確實震驚了。
進擊的搜狗
不過,如果回顧搜狗今年以來的種種AI技術進展,或許這個大新聞,也情理之中:
語音識別:藉助搜狗輸入法等產品落地,搜狗語音識別準確率突破98%(口音、噪音條件較可控環境下),行業領先;
TTS:語音合成界國際頂級大賽Blizzard Challenge 2018 中,搜狗獲“可懂度”和“語音停頓”兩項子任務全球第一;
機器翻譯:機器翻譯在國際翻譯頂級學術賽事WMT 2017中獲中英機器翻譯全球第一、IWSLT2018國際口語機器翻譯評測大賽全球第一;
人機對話:在NLPCC 2018比賽中,搜狗語義理解技術獲得第一名、NTCIR 2017評測比賽短文字對話任務第一;
機器視覺:在自動駕駛領域國際頂級評測CVPR WAD 2018道路目標檢測任務全球第一、Pascal VOC 2018挑戰賽目標檢測Competition 3,4兩項子任務,全球第一、國際自動駕駛領域權威評測集Cityscapes 2018例項分割評測任務全球第一、MegaFace 2018人臉識別任務,以99.939%的準確率,獲全球第一。
所以天道酬勤,AI程序中的搜狗,此時釋出全球首個AI合成主播,個人奮鬥得償而已~
— 完 —
年度評選申請
加入社群
量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話介面回覆關鍵字“交流群”,獲取入群方式;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進專業群請在量子位公眾號(QbitAI)對話介面回覆關鍵字“專業群”,獲取入群方式。(專業群稽核較嚴,敬請諒解)
活動策劃招聘
量子位正在招聘活動策劃,將負責不同領域維度的線上線下相關活動策劃、執行。歡迎聰明靠譜的小夥伴加入,並希望你能有一些活動策劃或運營的相關經驗。相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態