1. 程式人生 > >我們可以從Alexa語音助手的錯誤中學到什麼:使用者對話介面的設計性挑戰

我們可以從Alexa語音助手的錯誤中學到什麼:使用者對話介面的設計性挑戰

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

大資料文摘作品

編譯:楊捷、Bill、Aileen

交談是人與人之間互動的關鍵,追根溯源它可以是遠古穴居人篝火旁的圍坐,或者政壇上冗長的辯論,又甚至於你與牙醫之間尷尬的小對話。我們常常可以通過交流很快速地判斷出對方是否有興趣、我們是否願意與之約會或形成僱傭關係。如果我們希望完成某件事,那就交談吧,這是我們傳遞資訊並且與他人交流的途徑。

所以這表明我們也將在交談中實現與服務和商品的互動,不是嗎?

確實如此。但事實證明建立智慧的對話物件仍具有一定的挑戰性,特別是當它能獲取你的財政狀況或向老闆傳送資訊的時候。這些長期以來在人與人的交談中已被解決的問題對於對話介面仍然是個挑戰。

對話是我們都熟知的互動介面,因此,站在服務的角度理解,對於互動介面設計師來說,想要使用者為了與一項服務互動而必須重新學習對話是不合理的。不論使用者選擇用何種自然的方式與系統對話,服務方都必須試圖去理解。

以下是亞馬遜Alexa語音助手的最近大熱而引起人們注意的一些有關互動介面的挑戰:

認證鑑定

“誰正在講話?”

640?wx_fmt=jpeg

在一個當地新聞節目中,新聞主播模仿了一個偶然通過與Alexa語音助手對話買到了玩偶的小女孩。捕獲到的聲音訊號被Alexa處理為一則命令,隨即許多觀眾也通過Alexa介面嘗試訂購了一個玩偶。

認證在交易和交流服務中都是至關重要的:我們期待合理的保障措施,尤其面對需要支付和登陸的時候。當處理資金與個人資訊時,我們需要更謹慎。對話介面在此有了一個新的挑戰,比如偶然的噪聲干擾。這樣的意外絕不可能發生在物理觸屏上。

在人與人的交流中,我們有很多我們甚至不會意識到的形式的認證方式:

面對面:我們通過長相得知我們在與誰交談,畢竟我們知道朋友的長相。

聲音:我們通過聲音辨認交談的物件,包括語氣、詞彙等。有時有人錯誤地接起了電話,你立刻就能覺察。

位置/直覺:我們對一個新環境中可能遇到某人的概率做了邏輯性的假設。正在外地度假時你突然發現一個人看起來好熟悉?好吧,應該不可能……

但是對話機器人是如何核實客戶身份的?

一個折衷的辦法是利用傳統的驗證方法,比如密碼驗證,雖然顯得有些拙劣但是效果很好。然而理想的辦法是收集足夠多有關客戶聲音和外貌(取決於介質)的資訊,使得對話介面可以不再依賴這種看起來比較笨拙的輸入方式,它就好像你的朋友,必須確認你真的是你,才肯借錢給你。

語境

“你在說什麼?”    

640?wx_fmt=png

語境同樣與上則買娃娃的新聞故事息息相關,如果Alexa已經辨認出其正處於電視節目的環境中(主持人假裝想要娃娃的小女孩時使用的是過去時態),那麼Alexa就不會採取行動。

這是我們在人際交往中認為理所應當的事情,比如對方可以記住我們在哪裡、正在做什麼包括我們剛剛談到的所有一切。畢竟,你可能不會花太多的時間與一個不記得你最近給他說過什麼的朋友交往。

從Alexa的故事中我們明白,對於情境的理解需要深入,從什麼時候該保持安靜到得知某一問題可能會涉及到曾經發生的事情(就像在正常對話中一樣)或者使用者所說的同音異義語表達的究竟是什麼意思——比如你正在感受飢餓(hungry)或者你正要前往匈牙利(Hungary)。

真正的挑戰在於這幾乎是一個零和遊戲,要麼提供豐富的語境資訊來定義對話代理的行為,要麼乾脆幾乎什麼都不提供,因為但凡一個微小的不準確都會使的機器變得不可靠(錯誤的理解)或者反應遲鈍(根據它的理解做出了錯誤的迴應)。當然,隨著類似於Alexa的這些平臺學習能力的增強,他們變得越來越聰明有用。

使用者意識

“我正在和誰講話?”

在這個視訊中一個小孩要求亞馬遜Alexa為他播放他最喜愛的歌,然而Alexa誤解了他的意思並且做出了完全不同的迴應

對話介面更有可能在人與人之間共享,就像Alexa被設計為一種家庭內部的存在(亦或一個家庭數字成員),所以它需要理解並且適應不同的使用者。它需要明白使用者的喜好,年齡,和如何給予他們反饋。如果使用者是一個孩子,它們則應提供一種適合孩子的反應方式。

就像通常人們根據聊天的物件和關係程度來調整對話的內容,會話代理同樣需要根據聽眾來調整他們的語調和語言。這也可以歸結於語境,如果使用者確實很匆忙,那麼語音服務也要調整成快速準確的語調。所以語音助手需要了解它的聽眾。

智力水平

Alexa:“對不起,您可以重複一遍嗎?”使用者:“算了……”

640?wx_fmt=jpeg

一個充滿抱怨的爸爸正在努力使用亞馬遜“Trevor” 啊不,是Alexa

我們每天都在進行著對話,與其他交流方式不同的是,人們在交談時往往有明確的期待。主要表現為對被理解的期待和以及因為需要不斷重複表達或者不斷被誤解而產生的失望。

對話介面令人興奮並且感到新奇的原因是它可以完全達到擴音和隱形的效果。然而這意味著它必須順利地工作,因為它未設定連擊緩衝鍵或其它選項供使用者選擇。

與圖形使用者介面所達到的即時性和反饋不同,對話介面需要時間接受所有的語音訊號並且知道在作出回覆之前輸入語音已經結束,然後使用者須收聽整個迴應來判斷介面迴應的準確性。

需要強調的是,觸控式螢幕的輸入是實時的,包括使用者觸控到了那裡和怎樣觸控:

640?wx_fmt=jpeg

觸控式螢幕介面通過獲取觸控位置和觸控型別(例如按壓力度、長度)來工作,這種型別的輸入非常迅速

但是語音介面主要輸入的是隨著時間變化的聲波,如下所示:

640?wx_fmt=jpeg

對話介面需要時間聽到完整的輸入並且確認輸入完成

這些額外需花的時間應該被作為一個考量因素列入到專門為對話服務的新型互動方式的設計中,僅僅將現有的互動方式適配到新型的平臺中是不夠的。

接下來,我們應該向哪裡努力?

我們需要學習如何建立自然對話方式,替代現有的圖形介面。對話本身是沒有改變的,我們必須向人類已創造的人際交流直覺機制致敬,畢竟我們無需要求他們重新學習這項技能。

我們該如何做呢?

使其更簡單,容易上手: 通過智慧地使用資料(包括語境、使用者行為和使用者屬性)將所有的事物都擬人化,給使用者提供一種和諧並感到舒適的溝通物件。此外,人們總是在思考的半途中就改變了主意或者不總是能清楚地表達自己的想法,所以對話介面需要能夠從這些噪音訊號中,儘可能對本意做出最佳的猜測。

使其更令人信賴: 為了使使用者信任地將他們的財產或信譽交給看不見的隱形私人助手,使用者需要清楚私人助手採取的行動和背後的原因。同時,當私人助手無法滿足使用者要求時,應該清楚地向用戶傳達系統的限制,透明化有助於使用者避免碰壁或有其他不好的經歷。

最後,很重要的一點是:會話只是提供了另一種互動的方法,但是不能完全地取代視覺或者其他交流方式。一幅圖勝過千言萬語,文字並不一定是實現目標最有效的方法,我們需要考慮並且欣然接受這個事實。一個理想的互動世界可能看起來更加變化多端:能無縫對接各種最合適型別的互動介面來達成給定的任務。

原文連結:

https://uxdesign.cc/what-we-can-learn-from-alexas-mistakes-a4670a9e6c3e#.rz8y92jbk

【今日機器學習概念】

Have a Great Definition

640?wx_fmt=png

志願者介紹

回覆志願者”加入我們

640?wx_fmt=png640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=jpeg

640?wx_fmt=jpeg