1. 程式人生 > 資訊 >小冰李笛:對話引擎需突破對話溯源,小冰島 App 研究多 AI Beings 與人類互動

小冰李笛:對話引擎需突破對話溯源,小冰島 App 研究多 AI Beings 與人類互動

10 月 8 日訊息9 月 22 日,小冰公司與微軟(亞洲)網際網路工程院在北京聯合舉行了第九代小冰年度釋出會,帶來了多項技術升級、戰略合作和產品擴充套件。Bing 搜尋引擎已完成與小冰框架融合,將於下個月在更多國家上線。自 11 月起,在 Windows 及移動應用產品中的個性化推薦及資訊流,也將先後融合小冰。

在小冰框架開放域對話方面,小冰重點加強了小樣本學習與反饋式學習的效能。根據最新的橫向評測,全部五項指標均領先於同行業者的超大規模預訓練模型效果。這五項指標分別是:平均對話長度、上下文一致性、上下文相關性、對話資訊含量與話題引導成功率。與此同時,單輪對話成本僅為同行業者的二十分之一。

在超級自然語音及多模態互動方面,小冰宣佈了在語音自然度(Naturalness MOS)和平均舒適時長(Average Comfort Duration)之後的最新技術指標:多樣性(Diversity)。並展示了該項技術在人工智慧內容生成及小冰島產品中的實際落地效果。

小冰第九代推出了全新的詩歌與繪畫創作模型(V3),支援中國畫模型與“藝術家模型”;還有新的人工智慧歌聲合成技術、新歌手及 X Studio 2.0 釋出;另外小冰團隊還發布了首個第一方社交平臺 App“小冰島”,無論一群人還是獨自一人,你都可以幸福生活。這是人工智慧最溫暖的一面。

在小冰第九代釋出會後,專訪了小冰公司執行長李笛,就小冰的新技術和新角色等話題進行了探討。

下面是採訪內容:

:小冰本次釋出會上公佈了開放域對話引擎、超級自然語音等技術,相比起此前的技術有哪些明顯變化和應用嗎?對比同行業者領先多少。另外下一步小冰對話引擎和自然語音等技術的難點或突破在哪裡。

李笛:在釋出會上我們公佈了一張表,是小冰跟同行業者兩個引擎的對比,一個是基於 GPT3 超大規模預訓練模型的,還有一個基於檢索模型的。我們看得出,即使在這個超大規模預訓練模型上,其大部分指標還是不如小冰的。另外,在對話過程資訊含量指標上,原本以為會比小冰現在線上的模型應該要好,但最後結果還是不行。

目前為止,在對話引擎上面,最重要的、需要突破的點是推理,就是你的對話溯源。你為什麼要說這句話,包括生成對話文字,這句話生成的目的和背後的意圖,對意圖的瞭解這一塊應該是有很多可做的東西。我們最近跟清華智源研究院在做多語言種類的、新的超大規模的預訓練模型(預計今年年底前會公佈結果)一定程度上能解決這個問題。

小冰線上的產品,目前為止最大的問題不是對話的問題,而是線上產品套裝了過濾系統。這個過濾系統很大程度上影響對話體驗。在安全性上極大提高,一定程度上會造成對話質量不夠好。目前為止看來,我們還保持著優勢。

:微信小冰已迴歸,在以後的運營方面會更看重哪些內容。有沒有想法推出小冰 App 或者快應用 ?

李笛:微信小冰其實無論從用量上還是滲透率上,其實都沒有辦法跟華為、小米、OPPO、vivo 或者 QQ 裡面的小冰相比。甚至一定程度上跟微博小冰相比都不夠大。我們現在也有抖音 API,將來如果做抖音小冰的話,可能都會比微信小冰好。但微信小冰迴歸,是因為微信小冰畢竟是有一定的代表意義的。另外,有一些微信的互動是我們比較熟悉的,但是在微信小冰上其實沒有特別的運營的目標。

小冰的快應用包括跟華為,還有其他幾家合作,疫情前小冰實際上是華為應用市場快應用排名第一。至於小冰的 App 方面,小冰島是我們現在主要使用的一個 App,另外就是小冰其實還有一些不叫小冰的 App,主要是用來做測試,比如小柚醬,這是一個小程式,後面會有 App。還有像 XEva 等等,這些主要是用來測試產品設計的。

:目前內嵌小冰的智慧裝置超 10 億臺,下一步數字語音助理的方向會是哪些領域。小冰會推出自有帶屏硬體嗎?

李笛:目前在數字語音助理領域,我們比較看重的其實是汽車,所以一年前我們開始做。我們希望乘客可體會溫暖便利兼具的出行體驗。現在像新勢力造車,包括高合、蔚來、小鵬,都是我們的客戶。傳統汽車企業像寶馬、日產、北汽、上汽都是我們的客戶。我們在這方面發展還是比較快,有點後來居上。

另外,我們認為智慧語音助理的發展方向是公共領域。所以在日本測試了很多鐵路、月臺、地鐵這些環境。我們準備在國內複製已經有的經驗。比如說一些月臺和即時通訊之間的協同,應用 AI,應用小冰,或者是 Rinna 這種方式來進行協同。這是我們比較看重的。

至於說智慧裝置,包括傳統的智慧 IoT,智慧手機和音箱,已經基本完成了這方面的合作。所以如果我們要推出一款帶屏音箱也好,無屏音箱也好,一個硬體終端也好,我們一定需要有一個目的。

目前為止,有屏音箱,無屏音箱領域,一定程度上其實已經從 AI 故事,或者說 AI 戰場,轉向消費類電子戰場了,離 AI 比較遠了。我們肯定不是做消費類電子的,所以近期沒有推出小冰的自有的硬體的計劃。

:這次夏語冰等學會了中國畫等畫風,還有更多歌手出現、合作企劃等啟動,是否意味著小冰開始更多面向消費者領域有更大的動作。

李笛:從微軟分拆之後,我們在 AI TO C 這方面可以做的更靈活,所以動作會比以前更多一些。而整個行業,在 AI 這個領域,整個行業過去主要還都是 AI TO B 的思想文化,比如智慧城市、智慧交通、智慧安防等。

我們正在大力佈局消費類內容,比方短視訊生成,繪畫、詩歌、音樂,這些都是消費類內容。但我們目前為止,最主要的還是在佈局消費類內容提供平臺,而不是消費類內容 IP 化運營平臺。我們跟次世文化合作推出了 MERROR 虛擬人物。MERROR 是次世文化負責運營的虛擬偶像。而小冰更像是在背後去驅動包括但不僅限於這幾個或者十幾個提供內容的虛擬偶像的平臺。

:中國畫的繪製相比之前的西方油畫之類的,有什麼不一樣的難點嗎?

李笛:中國畫模型這次是屬於新增,但是坦率講,中國畫模型在技術難度突破上,不如我們推出的藝術家模型和細節構圖精度提高,這兩個技術含量更高。藝術家模型技術含量最主要是集中在樣本是比較少的。比如說塞尚,他的畫作沒有那麼多。我們以前想訓練一個風格,並且能夠鎖定在這個風格上,需要比較多的訓練資料。藝術家其實訓練資料沒有那麼多。所以,這是一個比較大的突破,我們現在能夠在小樣本基礎上能夠做出來,然後構圖精度提高。

中國畫模型近期才新增,是因為它的訓練資料不容易獲得。中國畫的訓練資料,跟西洋畫的訓練資料相比,他的精度和畫面儲存完好度不夠好。同時畫上還容易有很多章印,很難確定這章印是不是畫面的一部分。以前訓練資料不夠理想,而這一次,我們把訓練資料解決了。

當然,它裡面也有獨特性,比如中國畫比較強調散點透視,就是多點透視,移步換景。西洋畫一般都是有一個比較明確的直觀性。在形成畫作的時候,繪畫創作過程中會有一些不同,但這些不同沒有那麼大,更多的在於資料的功力。

:小冰島的社交網路與動物之森、西部世界有何不同,為何要採用人類與人工智慧 AI Beings 的模式。這種模式下使用者會不會很快變得厭倦,除了小島主人還有其他人類使用者的互動嗎?

李笛:小冰島也只是我們在這個階段的一個產品形態,他的目的跟我們以前其他階段產品形態是一樣的。他固然本身是一個產品,但是他主要還是為了能夠通過進一步新的資料獲得來訓練人工智慧。我們的終極想法是未來要建立一個很多人和很多 AI beings 混合在一起的融合社交網路。那麼這個融合社交網路除了提供內容和服務之外,他需要實現互動。這個互動,一般來說是分為四類互動,最後是把這四類互動合併在一起。所以我們需要分別去獲得這四類互動的資料。我們已經獲得內容包括:一個人和一個 AI 之間的互動,通過華為、小米、OPPO、vivo,QQ 小冰私聊,可以得到大量資料。另外,我們也獲得了多人和一個 AI 的互動資料。

我們缺兩類資料:一類是一群 AI beings 和一個人之間的互動資料。這裡面就涉及到這群 AI beings 之間是不是要相互配合。或者說這群 AI beings 應該以人為中心,還是不應該以人為中心。他們是應該分別跟這個人發展關聯,還是他們應該拉一個群跟這個人去交流。另一類是一群 AI beings 和一群人之間的互動資料。當然,我們也可以上來就先做一個好多人跟好多個 AI beings 在一起的產品。但是那樣的話,不利於資料迭代。我們可以在現有的基礎上,再去做一個升級,升級成多個人和多個 AI beings 的互動。

我們並不追求所有的使用者天天都登入到這個平臺上,這跟當初小冰一代迭代的時候是一樣的。一代小冰迭代的時候,為了得到純粹的互動資料,我們故意讓小冰不能完成任何的任務。當時一些使用者說小冰怎麼不幹活?怎麼不智慧?就走了。而留下的另一些使用者覺得小冰是智慧的。這樣便於我們清洗資料。

今天的情況也是一樣的,在行業裡面,沒有一個 App 能夠支援我們迭代多個 AI 和一個人的互動資料,所以我們推出了小冰島。