1. 程式人生 > >騰訊俞棟:定義下一代智慧人機互動,從目標、挑戰到實現路徑

騰訊俞棟:定義下一代智慧人機互動,從目標、挑戰到實現路徑

感謝閱讀騰訊AI Lab微訊號第52篇文章,俞棟博士在2018騰訊全球合作伙伴大會“共生·人工智慧”分論壇上展示了騰訊AI正在推進的跨領域前沿研究:下一代的多模態智慧人機互動。

語音識別及深度學習領域專家、騰訊AI Lab副主任及西雅圖實驗室負責人俞棟博士,在2018年騰訊全球合作伙伴大會上展示了騰訊AI正在推進的跨領域前沿研究:下一代的多模態智慧人機互動。以下是有補充的演講全文,介紹了人機互動的歷史與目標、下一代智慧人機互動的優勢與挑戰,及騰訊AI的解決方案。

640?wx_fmt=jpeg

人機互動的未來

就是多模態智慧人機互動

人機互動的歷史

在計算機的發展歷史上,隨著技術的進步,發生過幾次大的互動模式的演進。最近的兩次大家比較熟悉的轉變是從以滑鼠/鍵盤為主的互動模式轉換為以觸控和語音為主的互動模式。

人類創造計算機的最早目的是幫助自己處理一些繁瑣的計算任務,比如彈道計算;那時候,只有經過訓練的專業人員才有能力向計算機輸入資訊和閱讀計算機輸出的結果。隨著硬體和軟體技術的發展,計算機的速度越來越快,功能也愈漸強大,人與計算機的互動方式也越來越多樣化,並日益向對人類而言更自然更便捷的“以人為中心”的方向發展。實際上,在計算機的發展歷史上已發生過幾次顯著的互動正規化演進。

1946 年正式投入使用的世界第一臺通用計算機 ENIAC 的輸入和輸出都在卡帶上進行,這種人機互動方式需要對卡帶進行加工(打孔或塗繪等),從而為計算機提供二進位制程式,因此速度緩慢。60 年代中期,命令列介面出現了,計算機使用者可以通過鍵盤直接輸入程式並在螢幕上獲得反饋,各種程式語言也順勢發展。1968 年,Douglas Engelbart 設計的 NLS 系統將滑鼠、指標、超文字和多視窗介面整合進了計算機系統中,奠定了我們當今的主流桌面計算機的基於圖形介面的形式基礎。

人機互動的未來

現在,智慧手機的普及已經讓人們習慣了基於觸控式螢幕的互動方式,現在幾乎所有有人的地方都有“點手機”的身影。在語音識別和自然語言處理技術的推動下,基於語音的互動方式也正在迅猛發展——智慧語音助手已經成為了很多智慧手機的標配,智慧音箱也正在進入越來越多的家庭。此外,基於計算機視覺乃至腦波分析的互動技術也已經出現,比如通過人臉跟蹤控制系統或通過檢測玩家的表情來個性化地調整視訊遊戲的難度和劇情等。

640?wx_fmt=png

互動模式的演進主要還是為了降低互動的困難程度,使更多人能夠使用計算和智慧裝置,也使使用者能夠方便地使用更多形態和數量的裝置。顯而易見,每一次互動正規化的轉變都帶來了新的使用者群體、新的應用場景、新的商業模式、和新的想象空間。比如觸控方式的普及使很多老年人也會使用智慧裝置,語音技術的進展則使得我們可以遠距離控制裝置,極大地增加了可互動裝置的數量。但是,新型互動方式並不會在所有場景中都完全替代已有的互動方式;在可預見的未來裡,程式命令、圖形介面和語音等互動方式都將有各自更為擅長的應用場景,基於智慧處理技術的多模態互動將成為人機交互發展的未來。

多模態智慧人機互動系統的優勢

多模態的智慧人機互動相比單模態的傳統互動方式有幾個優點:

640?wx_fmt=png

優勢1: 互動自然

最明顯的優點是互動的自然度和自由度,使用者可以根據場合以及對不同模態的熟悉度來選擇一種或多種方式與裝置互動,比如使用者可以用手勢或語音或者結合手勢和語音來表達同一意思。

優勢2:資訊融合

在很多場景下,單一的資訊源往往不足以保證系統的準確率和魯棒性,比如在高噪音場景下,語音訊號會受到很大幹擾從而影響語音識別的準確率。然而通過多模態資訊的融合,比如同時基於手勢、口型或面部表情我們可以獲得更精確的語義資訊。不但如此,多模態資訊融合也可以使系統更準確地辨識使用者、情感、場景、和發聲人位置,從而降低互動的成本。

優勢3:互為監督

不同模態之間可以互相提供關聯和監督資訊。不同模態之間的關聯是語義理解的一個很重要的組成部分,比如當我們提到一個有實體的概念時我們往往會聯想到這個實體的形狀、聲音、運動方式等諸多方面,又比如當我們聽到咣噹一聲時會聯想到門被關上了,並且頭腦中會出現門的形象。這些都是通過多模態之間的關聯學習到的。不同模態之間的關聯和監督資訊還能夠幫助系統在執行過程中持續做自適應學習,比如當系統同時具備麥克風陣列和攝像頭陣列時,麥克風和攝像頭可以互相提供校準資訊。

優勢4:多維感覺

這對使用者和系統都很重要,因為人在互動過程中,除了語言資訊外,還會使用很多副語言資訊和非語言資訊,例如態度、情感、意圖等。這些資訊很多是通過面部表情和肢體語言來輔助表達的。多維感覺對使用者尤其重要,因為使用者可以在多模態互動系統中從視覺、聽覺、觸覺等多個維度來感知和體會智慧裝置想要表達的情感和語義。

智慧人機互動系統的終極目標

智慧人機互動系統的終極目標是使人與機器互動和人與人互動一樣輕鬆自然。我們認為從以人為本的角度來看,理想的系統應該具有幾個重要的指標。

640?wx_fmt=png

目標1:不用學就會

最重要的指標就是不用學就會,如果使用者願意學習一些不熟悉的互動方式,他/她會有更多的選擇,但是如果他/她不願意學的化也能以其最自然的方式比如聽覺和視覺與機器互動。

目標2:多模態互動

人與人之間的互動就是多模態的,我們可以用語言、表情和肢體動作等方式傳達我們的想法和意圖,因為這些方式對人而言是最自然的。基於剛剛提到的多模態互動的優勢我們認為這樣的系統也應該是多模態的,這裡多模態包含輸入的多模態和輸出的多模態,而由於智慧裝置可以提供螢幕輸出,從輸出的效率來說它們甚至可能比人更為優越,這一模態是很多人機互動場景的核心。

目標3:深層次理解

結合場景、世界知識和歷史互動資訊,再對語義、語用和情感進行深層次理解,能互動自然而有效率。

目標4:擬人式對話

在系統的輸出側,如果系統能夠以高逼真度、高自然度、和高清晰度的擬人形象、聲音、用詞、和表達方式來和使用者互動,就能大大減小對使用者感知能力的要求。

目標5:個性化互動

最後一個指標是個性化互動,這也是為了使互動更自然。比如當與小孩互動時我們會希望機器的回答匹配孩子的認知水平、智慧裝置的語調和口吻適合孩子。又比如當與不同人互動時我們會希望智慧裝置的互動方式和內容是使用者所感興趣的。我們雖然不知道這些指標到什麼程度使用者會覺得足夠好,但我們知道如果智慧裝置可以生成對話和形象使之表現得和與使用者進行視訊通話的朋友一樣自然, 那智慧人機互動系統的終極目標就達到了。

640?wx_fmt=png

智慧互動系統距離期望目標尚遠

在下一代智慧互動的道路上,我們已經有了一些進展,但離我們的目標還有不少的距離。比如,雖然使用者可以用語音和系統互動,但是使用者往往需要適應機器,需要學習如何和系統互動以及系統能理解什麼。在多模態互動方面,各模態往往互相獨立或只有單一模態,沒有充分發揮多模態能提供的能力和體驗。對語義、情感、和場景的理解也還遠遠不到位,往往只有在非常特定的垂類上有一定的理解能力,超出這些垂類系統就表現得非常弱智。機器在互動過程中臉部表情和聲音還不自然,並且有時會出現前言不搭後語的情況,更不用說通過不同的語調,藉助不同的語氣詞,使用不同的回答方式,並結合豐富的面部表情和肢體語言來和使用者互動。系統對使用者也沒有或只有簡單的辨識和建模,對答沒有統一風格也缺少個性化特色。

多模態智慧互動系統的挑戰與實現路徑

我們可以看到,人機是一個高度協同的系統,為了降低對人的要求和限制,我們必須通過技術手段提升機器的能力。這裡是一個高度簡化的多模態互動系統,我們只列了語音和視覺兩個模態的輸入和輸出。不過,這已經足以讓我們看到系統的主要能力和資訊流。在目前的系統中,這個框架圖中的每一個模組都還不完善,都需要很多的前沿研究和細緻的工程實現。要實現人機智慧互動的終極目標我們面對的挑戰還很多。這裡我列舉其中的四個挑戰和我們正在研究的解決方案。

挑戰一:複雜場景下語音喚醒和識別

640?wx_fmt=png

在多模態互動系統中,語音作為對人來說最自然和最常用的互動手段是不可或缺的。雖然語音識別技術經過這些年的研究已經能在近場識別中達到或超過實用的門檻,但在很多真實遠場場景下效能還遠遠不夠,而遠距互動是語音優於其他互動方式比如鍵盤和觸控的關鍵點。這裡主要的挑戰來自於重口音和雞尾酒會這樣的場景。為了在這些複雜場景下提升系統的識別率,我們的解決方案需要結合聲源和人臉資訊來辨識說話人及其方向,使用多通道語音來分離和跟蹤特定說話人的語音,並利用該說話人資訊做識別自適應。目前的互動系統中有一個很大的痛點是使用者需要經常使用喚醒詞來喚醒系統,這使互動過程不夠自然,效率不高。我們認為結合語義、目光交流、和視覺場景分析是減少互動中喚醒詞使用次數的重要方向。

挑戰二:對話、場景、和情感理解

理解能力,這不僅包含自然語言的理解還包含場景和情感層面的理解。自然語言理解被廣泛地認為是目前系統裡最薄弱的一個環節,這是因為語言是用來刻畫和描述世界並傳遞資訊的,所以要理解一個語句所對應的實體或概念,我們往往需要了解這個實體或概念相對應的視覺、聽覺、觸覺體驗以及和它相關的其他概念。而且,為了提升語言互動的效率人們往往假設許多背景資訊互動的雙方是已知的,不需要在對話中提及或傳輸。

640?wx_fmt=png

這些都表明要提升理解能力很重要的一點,就是構建一個關於世界的模型,這個模型可能不止包含語言表達的知識還包括與概念相關的其他模態資訊。這也表明為了使系統更有效率地和使用者互動需要建立使用者模型,用以描述使用者的個性、習慣、愛好、對話歷史,以及使用者所瞭解的世界,有了使用者模型,系統就可以針對性地進行個性化互動,也可以比較容易地理解和使用者相關的語言。另外,為了提升對對話場景和情感的理解,我們可以同時利用聲音和視覺資訊來判別場景和情感。

挑戰三:智慧對話管理

對話需要邏輯上一致、語義上連貫。與人與人互動類似,人機互動也有不同的目的,並且多種目的的互動方式往往會在同一個對話段裡出現,對話系統需要能靈活處理不同型別的對話而且需要因人而異。

640?wx_fmt=png

一個可行的實現方式是將任務型、問答型、和閒聊型對話分解成可複用的更小的數量巨大的微技能,並通過統一的多層次對話管理模組整合在一起。對話管理模組需要能支援使用者主導和系統主導的對話,能在兩者之間自由切換,並對不同個性的使用者使用不同的對話策略。

挑戰四:高逼真度多模態對話回覆

這是為了使使用者能夠和與人互動那樣自然地得到資訊反饋。視訊展示方面,我們的做法是逐步實現低成本、高可定製化、可控人臉實時動態三維建模和高真實度紋理生成和渲染。這裡是我們和騰訊NEXT Studio團隊合作的Siren虛擬人,可以看到我們在高逼真度智慧控制語音和人臉方面的一些進展。對話回答的生成方面,我們從資料中總結出各種表達語義資訊的模板,並利用它們作為基本回複方式結合使用者模型和對話狀態生成最後的回答,並和視訊同步合成具有情感的表情和聲音。

640?wx_fmt=png

Siren虛擬人

這樣的虛擬人已經具備了一些基礎的功能,包括多模態的輸入、語音閒聊、簡單的行政功能等,但是,完全達到智慧人機互動的終極目標還有很長的路要走。

多模態智慧人機互動系統賦能應用場景

然而,在我們逼近這一目標的過程中,就可以逐漸賦能一系列應用場景,比如在辦公場景下的虛擬祕書、家庭裡的陪伴機器寵物、遊戲裡的虛擬玩家、車載虛擬助手、和社交裡的千人千面的互動bot。

640?wx_fmt=png

多模態智慧人機互動系統賦能應用場景

比如,對於青年人來說,開車途中可以通過和虛擬助手通話來控制汽車中控系統和智慧裝置,而虛擬助手還可以通過語音和視覺資訊來判斷駕駛員的疲勞程度和情感狀態,降低駕駛風險。工作中,虛擬祕書可以幫助處理高重複性、高標準化工作,讓你專注在核心問題上。下班後,虛擬社交使你能夠打破時間、空間、想象力的界限,兼顧娛樂性、隱私性,創造更大的世界。

640?wx_fmt=png

多模態智慧人機互動系統服務不同場景下的不同人群——青年

再比如,對於兒童來說,虛擬教師可以隨時隨地根據兒童的現狀和特點做針對性教學,學生可以通過AR/VR來認識世界並通過和虛擬世界中虛擬人物的互動而快速掌握知識。虛擬媽媽可以代替真實的媽媽陪伴兒童,給兒童講故事,陪兒童玩遊戲,指導兒童做作業。

640?wx_fmt=png

多模態智慧人機互動系統服務不同場景下的不同人群——兒童

隨著智慧技術的進一步發展,計算機對多模態資料的理解和整合能力也將越來越強,人機互動也將變得更加自然便捷。可以預見,未來的智慧機器不僅能聽懂和理解我們的話語,通過我們微妙的肢體語言洞悉我們的情緒,也許甚至還能基於充分的資料在我們表達出自己的想法之前就預測到我們的意圖。

此外,未來的智慧機器也許根據需求精確地呈現視覺形象,甚至藉助味覺、嗅覺和觸覺等方式與人類進行更豐富的互動。正如某些科幻中描述的那樣,隨著多模態智慧人機互動的演進,未來某天我們也許真的能夠創造出那種無論是外觀還是行為都與人類別無二致的智慧機器。我們非常看好多模態智慧互動的未來。

640?wx_fmt=jpeg

俞棟博士

騰訊AI Lab副主任及西雅圖實驗室負責人

語音識別及深度學習領域專家

俞棟博士是語音識別及深度學習領域專家,於2017年5月加入騰訊AI Lab,負責其西雅圖實驗室的建設、運營及管理,推動騰訊在語音識別及自然語言理解等AI領域的基礎研究。

俞棟博士是首次將深度學習技術應用在語音識別領域的研究領頭人之一,該應用極大推動了語音識別的技術發展。俞棟博士在該領域出版了兩本專著並發表過大量論文,也是60項專利的發明人及深度學習開源軟體CNTK的發起人和主要作者之一。

加入騰訊前,他曾擔任美國微軟研究院語音和對話組(Speech and Dialog Group)首席研究員,併兼任浙江大學兼職教授、中科大客座教授及上海交通大學客座研究員。俞博士曾獲 2013 年和2016年 IEEE訊號處理協會最佳論文獎,現任 IEEE 語音語言處理專業委員會委員,曾任 IEEE/ACM 音訊、語音及語言處理彙刊、IEEE 訊號處理雜誌等期刊的編委。

俞棟博士有中國浙江大學電子工程學士學位、美國印第安納大學計算機碩士學位、中國科學院自動化所模式識別與智慧控制碩士學位及美國愛達荷大學計算機博士學位。

640?wx_fmt=jpeg