全球首個AI合成主播發布，效果以假亂真！揭祕背後技術原理

阿新 • • 發佈：2018-11-13

邊策李根發自凹非寺
量子位報道 | 公眾號 QbitAI

640?wx_fmt=png

搜狗又在烏鎮世界網際網路大會上搞了大新聞。

2016年，王小川在正式論壇裡秀出AI同傳，那是機器實時翻譯技術，首次在高規格國際會議上實戰應用。

而這一次，依然世界網際網路大會，搜狗聯手新華社，釋出的是一項名為AI合成主播的技術。

這項新技術，可比AI同傳所需的語音識別、機器翻譯更復雜，需要的AI能力更全面。

直白言之，就是“克隆”出與真人主播擁有同樣播報能力的“分身”。

此前，類似技術嘗試的有，商業化產品釋出的無。

新華社給出評價：

這不僅在全球AI合成領域實現了技術創新和突破，更是在新聞領域開創了實時音視訊與AI真人形象合成的先河。

這究竟是一項怎樣的技術？

AI合成主播

其實所謂“AI合成”，主要強調了其技術原理。

“AI合成主播”是通過提取真人主播新聞播報視訊中的聲音、脣形、表情動作等特徵，運用語音、脣形、表情合成以及深度學習等技術聯合建模訓練而成。

該項技術要能夠將所輸入的中英文文字自動生成相應內容的視訊，並確保視訊中音訊和表情、脣動保持自然一致，展現與真人主播無異的資訊傳達效果。

如果從落地場景去看，就是喜聞樂見的虛擬主播。

但在此之前，出現在大眾媒體上的虛擬主播，多半隻有聲音，或者匹配一個量身定製的虛擬形象。

比如微軟小冰在東方衛視擔任天氣預報員，就是如此。

640?wx_fmt=png

不過搜狗的“AI合成主播”，講究的是以假亂真

，需要的技術難度和產品打磨挑戰，幾乎不能相提並論。

640?wx_fmt=gif

△ 搜狗AI合成主播效果

如果沒有提前告知，是不是難辨真假虛實？

要實現這樣的效果，2大要求缺一不可：

一、高逼真度。要能夠自動生成：語音、表情、脣動等資訊完全一致的自然視訊，並已達到商用級別。
二、低成本的個性化定製。小資料的學習模型，使用少量使用者真實音視訊資料，快速遷移生成虛擬的分身模型，快速定製出高逼真度的分身模型。

最後，使用時輸入一段文字，即可生成與真人無異的同步音視訊。

聽起來不難，實現卻要經歷“九九八十一難”。

人前近乎炫技的綜合能力，幕後是一項又一項來不得半點馬虎的小技術達成。

技術原理

背後包含了2大AI引擎。

一是語音合成引擎。在語音合成引擎中，基於使用者少量音訊資料，使用搜狗個性化語音合成技術，快速學習使用者音色、韻律、情感等多維度特徵，建立輸入文字與輸出音訊資訊的關聯。

另一個是影象生成引擎。使用搜狗人臉識別、三維人臉重建、表情建模等技術對人臉表情動作進行特徵學習和建模，建立輸入文字、輸出音訊與輸出視覺資訊的關聯對映，生成輸出分身視訊。

最後，2大引擎協作打磨，最終才能實現“AI合成主播”——能夠逼真模擬人類說話的聲音、嘴脣動作和表情，並將三者自然匹配，做到惟妙惟肖，讓機器以更逼真自然的形象呈現在使用者面前。

應用場景

雖然媒體領域應用，就已足夠驚人。

因為和真人主播相比，“AI合成主播”能夠不知疲倦地工作24小時，同時還掌握多國語言，大大提升效率、降低成本。

甚至寫好文字稿，“ AI合成主播”就能即可播送了——還不會有口誤或NG.

但“AI合成主播”出現，更是讓個性化內容生成的門檻大為降低，娛樂、醫療健康、教育、法律等多個領域和場景，無一不適用。

虛擬教師、虛擬醫生，虛擬客服等需要人類參與的內容表達場景，都能發揮價值。

當然，To B商業應用居多，但如果你想試，搜狗方面稱，在手機上藉助“搜狗制音坊”小程式，也能通過錄制使用者一段講話，讓其轉化為各種名人的聲音——這就是語音合成技術在作用。

視覺方面的合成也能試，比如秒變吳彥祖：

640?wx_fmt=gif

總之，技術已經ready，就看怎麼找場景落地了。

外媒評價

640?wx_fmt=gif

此外，因為史無前例，所以這個“AI合成主播”，確實也讓外媒對中國AI驚歎了一把。

《南華早報》評價，知名主播在新聞製作中的稀缺資產，現在通過AI，克隆而成的“他們”有能力一天工作24小時。

CNET稱：搜狗技術支撐，新華社亮相了新主播，不細看不知道不是真人。

Theverge也評價：AI開始進入官方新聞播報這樣的場景，說明技術已不是早期階段了。

總之，對一家中國公司的AI技術進展如此應用如斯，確實震驚了。

進擊的搜狗

不過，如果回顧搜狗今年以來的種種AI技術進展，或許這個大新聞，也情理之中：

語音識別：藉助搜狗輸入法等產品落地，搜狗語音識別準確率突破98%（口音、噪音條件較可控環境下），行業領先；
TTS：語音合成界國際頂級大賽Blizzard Challenge 2018 中，搜狗獲“可懂度”和“語音停頓”兩項子任務全球第一；
機器翻譯：機器翻譯在國際翻譯頂級學術賽事WMT 2017中獲中英機器翻譯全球第一、IWSLT2018國際口語機器翻譯評測大賽全球第一；
人機對話：在NLPCC 2018比賽中，搜狗語義理解技術獲得第一名、NTCIR 2017評測比賽短文字對話任務第一；
機器視覺：在自動駕駛領域國際頂級評測CVPR WAD 2018道路目標檢測任務全球第一、Pascal VOC 2018挑戰賽目標檢測Competition 3，4兩項子任務，全球第一、國際自動駕駛領域權威評測集Cityscapes 2018例項分割評測任務全球第一、MegaFace 2018人臉識別任務，以99.939%的準確率，獲全球第一。

所以天道酬勤，AI程序中的搜狗，此時釋出全球首個AI合成主播，個人奮鬥得償而已~

— 完 —

年度評選申請

加入社群

量子位AI社群開始招募啦，歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話介面回覆關鍵字“交流群”，獲取入群方式；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號（QbitAI）對話介面回覆關鍵字“專業群”，獲取入群方式。（專業群稽核較嚴，敬請諒解）

活動策劃招聘

量子位正在招聘活動策劃，將負責不同領域維度的線上線下相關活動策劃、執行。歡迎聰明靠譜的小夥伴加入，並希望你能有一些活動策劃或運營的相關經驗。相關細節，請在量子位公眾號(QbitAI)對話介面，回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

全球首個AI合成主播發布，效果以假亂真！揭祕背後技術原理

邊策李根發自凹非寺量子位報道 | 公眾號 QbitAI 搜狗又在烏鎮世界網際網路大會上搞了大新聞。 2016年，王小川在正式論壇裡秀出AI同傳，那是機器實時翻譯技術，首次在高規格國際會議上實戰應用。而這一次，依然世界網際網路大會，搜狗聯手新華社，釋

Rancher Labs引入全球首個多叢集、多租戶的Prometheus支援！

近日，Rancher Labs宣佈加強對Prometheus的支援，提高Kubernetes叢集的可見度。Rancher也因此成為唯一一個在多叢集、多租戶環境中支援Prometheus的解決方案。

華為釋出5大AI戰略，並帶來了全球首個全場景AI晶片

原標題：華為釋出5大AI戰略，並帶來了全球首個全場景AI晶片分析師大會埋下的伏筆，華為輪值董事長徐直軍在今天召開的全聯接大會上正式揭曉：釋出5大AI戰略，推出全場景AI方案，並帶來全球首個覆蓋全場景人工智慧的AI晶片昇騰910和昇騰310。在過去的12年間，秉持聯接主

KubeEdge v0.2發布，全球首個K8S原生的邊緣計算平臺開放雲端代碼

開放小數點訂閱代碼分布式一點極致 process 不難 KubeEdge開源背景 KubeEdge在18年11月24日的上海KubeCon上宣布開源，技術圈曾掀起一陣討論邊緣計算的風潮，從此翻開了邊緣計算和雲計算聯動的新篇章。 KubeEdge即Kube+Edg

全球首個TRX交易區上線,波場生態布局進入快車道

人員 dcb 很好吸引開發大賽性能最新 proc 賣出據最新消息，全網首個TRX交易區將於4月9日16:00 在CoinTiger正式開通上線，與ETH交易區並列。首期將上線ETH/TRX、XRP/TRX、EOS/TRX、LTC/TRX、BTT/TRX等多個主流數

全球首個5G產品認證花落華為，遠程視訊將助企業大展拳腳

5G 雲視頻 polycom視頻會議業界共同期許，至2020年全球正式商用5G網絡。當前，三大運營商、華為都在推進5G的試點工作。而近日，華為拿到“全球首個5G基站產品CE認證”。某種程度上，已經實現5G產品的商用。 5G到來，對人類生活會產生哪些影響？視頻會議產生將如何發力？首先，5G最直

全球首個NGO區塊鏈項目NGOT正式上線，率先提出“公益即挖礦”公益模式

研究公信力部分分享圖片開啟 watermark term 實現 text 今日（7月15日），全國首次區塊鏈技術與社會組織應用研討會在京召開，本次大會由北京共識區塊鏈研究院和北京亞太經濟合作促進會共同召開。在此次會議上，全球首個NGO區塊鏈項目產品上線，NGOT率先

深談社會貢獻模式，全球首個NGO區塊鏈項目NGOT提出新“貢獻即挖礦”理念

資源成員希望正能量根據 strong 有效事件 7月（關註微信號【NGOT中文社區】，即可領取價值580元的區塊鏈行業圖書） 7月15日，全球首個NGO區塊鏈產品NGOT，在京舉辦產品發布會，並開創性的提出“貢獻即挖礦”的新型社會參與模式。NGOT希望運用區塊鏈

首個AI公園探祕：身高體重一秒被曝，大爺大媽坐無人車玩瘋了

郭一璞發自凹非寺量子位報道 | 公眾號 QbitAI 在北京四環的西北角之外，有一片綠地，大約是因為離圓明園比較近，這裡曾經是皇家稻田。後來，皇家不復，稻田也成了海淀公園。海淀公園在北京一直算不上什麼有存在感的公園，旁邊的圓明園、頤和園還有北大校園個個都

Avaya將在GITEX 2018上展示全球首個聊天機器人社交平臺

阿聯酋迪拜--(美國商業資訊)--Avaya Holdings Corp.今天宣佈，該公司將在2018年海灣資訊科技展(GITEX)技術週上展示全球首個聊天機器人社交平臺，幫助實現客戶自助服務的巨大飛躍。與傳統社交媒體相似，Avaya的創新在於為機器人之間的安全互動提供一個結構化平臺，以擴充套件

電話機器人：“AI合成主播”語音技術的實際應用

11月7日，全球首個合成新聞主播——“AI合成主播”亮相第五屆世界網際網路大會。中國的AI技術讓外媒也驚歎了一把，紛紛感嘆沒想到中國的AI技術應用如斯。不管“AI合成主播”是否能成為新聞播報的主流，總之，AI代替人工已經成為一種趨勢。“AI合成主播”主要靠兩個引擎：語音合成引擎和影象生成引擎

全球首個數字資產生態錢包UnWallet 正式進軍中國市場

投資界11月08日傳出訊息，美國UnWallet基金會對外宣佈，UnWallet錢包全球正式啟動，並已進入中國市場，此專案由美國Blue Mountain capital和美國Teradata技術團隊提供技術支援。業內人士普遍認為，資產數字化已經成為新趨勢，隨著傳統經濟與數字經濟的逐步

AI合成主播上崗主播也要失業了嗎?

　　　　在剛過去的世界網際網路大會上，全球第一個“AI合成主播”上崗，不僅能播中文，還能播報英文，一天不眠不休可工作24小時。“AI合成主播”的虛擬模樣以真實的新聞主播為原型，看上去和真人沒什麼區別。不少網友感嘆，難道連主播也要失業了嗎? 　　在智慧語音系統、互動系統等一批人工智慧闖入職場

Horae：打造全球首個自由平等的共識經濟社群

在14——17世紀里長達200多年的文藝復興運動和隨之而來的啟蒙運動、宗教改革運動中，歐洲思想、文化、藝術界的先驅們，引領歐洲各國，復興弘揚遠古的人文傳統和科學、民主、自由、平等精神，帶來了文學、藝術、制度等全面革新和持續進步，也為世界近現代史上三次偉大的工業革命準備了思想文化和物質技術條件。我們知道，

發布國內首個無服務器容器服務，運維效率從未如此高效

物理機交互煙囪智能 uber motion 物理一次流程近年來，隨著越來越多的企業基於微服務架構構建自身核心業務平臺後，微服務已獲得越來越多技術人員的肯定，同時，微服務也承載著企業數字化轉型的重任。但微服務架構的落地給企業的運維團隊帶來了不少的挑戰，原有的運維方

Horae：打造全球首個自由平等的共識經濟社區

alt 歐洲堅守 register 平臺 ima .html 世界行業在14——17世紀裏長達200多年的文藝復興運動和隨之而來的啟蒙運動、宗教改革運動中，歐洲思想、文化、藝術界的先驅們，引領歐洲各國，復興弘揚遠古的人文傳統和科學、民主、自由、平等精神，帶來了文學、

“第一產業公鏈”Seele元一應用佈局再拓深，與全球首個大宗商品

2018元一作為BSOS全球大宗商品供應鏈智慧合約協作平臺的戰略伙伴出席了本次的活動。臺灣眾多產學研界影響力人士參與BSOS專案包括：BSOS臺灣金融科技公司董事長、臺灣區塊鏈與加密貨幣自律組織共同創始人王可言擔任BSOS首席戰略顧問，臺灣大學資訊工程學系副教授

360全球首個發現國家級0day攻擊 !

最近的烏俄“刻赤海峽”衝突事件之後不久，烏克蘭黑客勢力對俄羅斯總統辦公室所屬的醫療機構進行了黑客攻擊，由360首先發現並上報。詳情見：https://mp.weixin.qq.com/s?__biz=MjM5MTA2ODg0MA==&mid=2650695137&idx=1&

全球首個加密貨幣基金 IPO 欲在日本公開市場融資9億美元

總部位於開曼群島的投資公司Epoch Partners Limited宣佈推出全球第一個加密貨幣相關的首次公開募股（IPO），該計劃無疑會讓更多投資人接觸到不同的加密貨幣、初始代幣發行（ICO）、以及其他數字資產。以太坊錢包 2018是加密貨幣基金之年全球首個加密貨幣基金

九州雲釋出全球首個基於Ocata版的OpenStack雲平臺

5月8日，九州雲（99CLOUD Inc.）宣佈推出全球首個基於Ocata版本OpenStack 發行版Animbus® 5.0，新版本超前目前市場上普遍使用的L或M版本至少兩個OpenStack版本迭代，包含了更加穩定、更多功能的OpenStack核心，實現了在Kolla容器化部署、Kubern

全球首個AI合成主播發布，效果以假亂真！揭祕背後技術原理

邊策 李根 發自 凹非寺 量子位 報道 | 公眾號 QbitAI

AI合成主播

△ 搜狗AI合成主播效果

技術原理

應用場景

外媒評價

進擊的搜狗

相關推薦

邊策李根發自凹非寺
量子位報道 | 公眾號 QbitAI