1. 程式人生 > >解開“機器的因果”:人機自然交互為何成為阿裏AI觀的起點

解開“機器的因果”:人機自然交互為何成為阿裏AI觀的起點

阿裏

很快《復聯3》會上映,大夥喜聞樂見的鋼鐵俠又要來了。

圍繞鋼鐵俠,有個有意思的現象值得我們開開腦洞:應該每個人都想要戰甲裏搭載的AI程序“賈維斯”,但所有人都在擔心會不會有一天出現想要毀滅世界的AI機器人,奧創。

很多大人物,比如說霍金,都在提醒我們要警惕AI的潛在威脅。但仔細想想,賈維斯和奧創到底有什麽區別呢?只是單純的善惡之分?可善惡又由誰來分辨?

機器應該用智能服務人類,但不能有“過分的智能”,堪稱AI領域的“先有雞還是先有蛋”問題。

或許可以切換到另一種思路去思考這件事:賈維斯之所以讓人喜歡,是因為他能讀懂和理解鋼鐵俠的各種需求,令主動提供服務。也許我們在心底期待的,只是機器可以與人進行無成本的溝通與理解,而不是要擁有獨立的人格與智慧。

技術分享圖片

這樣的邏輯下,AI服務於人類的基本價值就落到了那個既復雜又簡單的名詞上:人機交互。

今天我們來探討這個問題,是因為剛剛清華大學與阿裏巴巴宣布達成戰略合作,共同成立清華大學- 阿裏巴巴自然交互體驗聯合實驗室。這個實驗室的目的在於探索“下一代人機交互”的未來。

據悉,雙方將以“人”為中心,探索“人-機器-環境”之間的關系,讓機器以更自然的方式與人類互動、服務人類。

技術分享圖片

跟眾多企業與大學聯合設立的實驗室相比,清華大學- 阿裏巴巴自然交互體驗聯合實驗室的獨特之處在於,它專註於解決一個十分急迫的問題。這個問題涉及廣闊的產業與市場可能,甚至關乎於馬雲所說要讓“機器更像機器,人更像人”的AI價值觀。

讓我們先從自然交互今天面臨的一些問題說起。

“五感”合一:人機交互的拐角在何處?

在智能音箱“狂轟濫炸”過之後,或許很多人認為,今天的AI帶來的自然交互能力已經相當成熟。但事實上,大夥可能還是有點樂觀了。

當然,AI帶來的語音識別、語義理解、NLP解決方案,以及花樣繁多的傳感與機器視覺技術,正在打開人機交互的新腦洞:過去只能通過鍵盤、鼠標、觸屏進行命令輸入的機器,正在開始以自然方式與人溝通。

比如我們已經可以語音控制音箱、電視和家居,人臉識別裝置也開始普及到生活當中。

但這還遠遠不夠。回想一下,為什麽我們有時候打字說不明白的事,就想要電話溝通?有時候電話溝通也不行,必須當面談談才可以?

這是因為,人與人之間的交互是相當復雜的。不僅僅是語言在起作用,音色音調、表情、肢體動作,甚至一個人隱含的情緒、氣勢,都是人們之間進行自然交互的一部分。

但很顯然,今天的AI還做不到這點。

技術分享圖片

舉個例子,今天搭載語音交互的空調開始成為新時尚。用語音操縱空調當然相比遙控器方便了很多,但也無非就是換了一種遙控方式而已。消費者獲得的實質價值並沒有提升。但如果空調不僅能聽懂你,還可以看到全家人的位置、穿了多少衣服,還可以感知到屋子裏的溫度、濕度,甚至每一個用戶的體表溫度。那麽空調就可以自主分析制冷模式,給每個人提供最適合的降溫方案。畢竟空調病或者冷氣吹太多導致的感冒,發生幾率將大大降低。

這就是給機器加上“五感”,進行多模態綜合感知的魅力——機器不僅是接受遙控的一方,它可以主動理解人類,通過智能運算得出更好的主動服務方案。

此外,目前AI在處理自然交互的時候,完全依托於計算機科學的知識系統。這就導致其會忽視人類在情緒、心理甚至隱喻層面的表達需求——聽起來好像有點太難為人家機器了,但是沒辦法,精益求精嘛……

再舉個例子,人的語言中是帶著各種情緒的。雖然說一樣的話,但附帶的情感可能完全不同。我們回家讓音箱放一首歌,可能是因為我們非常開心想要來點助興的音樂,也可能是有事不順心,想要安慰一下自己。

假如機器可以聽出來人類語言中附帶的情緒,可以觀察到用戶是低沈還是興奮。那麽給出的服務將完全不同,一句來自機器的問候下,可能很多讓人不開心的事都煙消雲散了。

技術分享圖片

模態綜合與心理解讀,就像這兩座大山一樣橫亙在AI自然交互的家門口,他們是問題,同時也是拐點和機會。而此次阿裏與清華的合作,核心訴求正是要搬走這兩尊山神。

在探索“下一代人機交互”的路上,清華與阿裏巴巴將在情感認知計算、實體交互、多通道感知等領域開展研究,不但要讓讓機器具備聽覺、視覺、觸覺等綜合性的“五感”,還要加強其識別理解人類情感的能力。

假如能通識五感,理解情緒的自然交互方式出現,機器智能將開啟的,絕不僅僅是一扇大門。

被忽略的商業價值:“五新”增長元點藏於萬物智能

去年年底的時候,我們報道過阿裏巴巴十二位科學家對今年科技走勢的預測。其中科學家們有一點共識非常值得註意:語音、視覺、傳感連接為一體的多模態機器交互技術,將在今年催生萬物智能的爆發。

幾天之前,阿裏在深圳雲棲大會上宣布,IoT將成為繼電商、金融、物流、雲計算之後的第五條主賽道。顯然從產業層面印證了科學家們對今年的判斷。

這或許說明了,新一代的人機交互並不只是停留在實驗室裏。而是正在以高調姿態走入產業世界,甚至成為“五新”戰略的重要支點。

舉個簡單的例子,我們就能看到多模態的自然交互在實際生活中多麽重要。阿裏有一個在地鐵站進行語音識別購票的案例。其要解決的核心問題是地鐵站中環境嘈雜,要準確識別到購票者語音很不容易。這就要求機器除了進行語音交互,擁有優質的聲紋識別、降噪算法之外,還需要進一步確認買票人。阿裏的解決方案是在售票機前加入人臉識別裝置,通過人臉和唇形識別來判斷究竟是誰在買票。

技術分享圖片

顯然,結合了語音交互和機器視覺、人臉識別的機器智能,很簡單就解決了一個生活中極重要的問題,而這個問題似乎又無法用其他方式來解決。事實上,新零售、新制造、新金融的世界中,近乎有無數場景等待著多模態交互的機器智能去攻破。

因為結合了語音、視覺、傳感,甚至機器嗅覺和機器觸覺的IoT設備,可以無限接近真人來為用戶提供服務。在零售和金融服務中,高效的多模態交互結合綜合計算、智能推薦技術,可以極大提高服務效率與商業精準度。

而制造業中讓機器與人類多模態交互,達到機器像人體一樣聽話,那麽工業效率的提升近乎是難以估計的。家庭、駕駛、城市服務等場景中,如是案例更是不勝枚舉。

“五新”想要由舊變新,那麽萬物智能似乎是不可替代的支撐點。在阿裏選擇與清華共同研發下一代人機交互的時候,一盤新的商業增長棋局似乎也被阿裏帶到了我們面前。

機器的因果:我們到底需要AI做什麽?

更進一步說,自然交互的價值也不僅僅在於商業世界。就像文章開頭中描述的那樣,人類最初對AI的恐懼與擔憂,是縈繞在AI發展過程中永恒的達摩克利斯之劍。

到底如何達成消解恐懼與技術突破的雙贏呢?從率先開展的自然交互進擊中,我們似乎能讀到一絲阿裏的技術觀:以人為本,馴服技術,讓機器始終是機器。

或許我們經常會聯想到AI的失控,是因為很多研究都是以技術為中心。那麽隨著技術的一點點拓展,很多問題也隨之而來:機器道德、黑箱難題、數據災難,等等。而假如我們以“人到底需要AI和機器來做什麽”為出發點,或許就會發現整個技術邏輯在變得不同。

馬雲說“過去三十年我們讓人像機器,接下來三十年我們讓機器像人。但歸根結底要讓人更像人,機器更像機器”,其中隱藏的就是阿裏技術邏輯的出發點和歸途。

技術分享圖片

交互升級,是人類與機器相處的本源命題,從杠桿、軸承、開關,到鍵盤、鼠標、觸屏,交互在一步步向人類舒服的姿勢靠攏。而接下來,語言、手勢甚至表情,當然是我們控制機器的更合理方式。

這條路上我們最終得到的,是能更好服務人類的機器,而不是人類無法理解的機器。這是一種我們很少去思考的AI觀:但假如我們認真思考一下到底發展AI、探索AI是為了什麽,或許答案其實很簡單:為了讓人類過的更好。

只要永遠以人為本,機器的因果問題也就迎刃而解。或許這種技術信仰會讓少部分科幻和陰謀論愛好者失望,但對於絕大多數人類來說,這是不需要選擇的選擇——機器會理解我們,並且我們不需要擔心ta。


解開“機器的因果”:人機自然交互為何成為阿裏AI觀的起點