1. 程式人生 > >從 UI 互動角度說語音識別產品

從 UI 互動角度說語音識別產品

  語言是人類進化的主要特徵,而人工智慧擁有了說話的能力也是科技進步的一個特徵。在很多科幻的電影裡面,我們可以看到人工智慧的身影。在電影 her 裡面見到的人工智慧,真的讓人歎為觀止,他可以隨意的和你聊天,像一個朋友一樣,像一個人一樣,擁有人性,他們有自己的思維,可以理解你的情緒,知道你想表達的意思,知道你的目標。但是我們現在體驗的人工智慧卻不是這樣的,大部分人對現在的人工智慧的評價只有:很笨。現在人工智慧的技術,解決的只是語音識別的問題。語音識別的技術是越來越強大了,甚至能聽懂方言了。但是使用者依舊覺得現在的人工智慧很笨,因為這只是一個可以聽懂話的“傻子”,他雖然聽懂了你的話,識別出你說的東西,轉換成了文字,他們也可以“說話”,但是他“不會說話",我們經常可以聽到“這個問題我還理解不了,如果你想……,可以這樣對我說……”。

  如果使用者不能從科學和哲學的角度去分析使用者為什麼會認為這些產品笨,那麼我們對語音互動的認知會掉進一個死衚衕中。

  我剛開始接觸智慧語音應該是從中國移動開始。打他們的服務電話,電話那頭傳來 “查詢話費請按 1 ”,“查詢流量請按 2”這種語音互動使用者是不會覺得笨的。為什麼呢?因為使用者知道,這種語音互動就是這樣的,是個選擇題,而且使用者只能做選擇題。他們的功能很清晰,使用者也知道互動的邊界很清晰,運作良好。所以使用者不會覺得這種語音互動是笨的。

  我們現在用的語音互動的產品是沒有產品界限的。使用者說出來的每句話,都是有創造性的,因為人與人之間的語音互動是邊界模糊的,才使得語音溝通的時候才顯得語音互動很笨。當你不知道機器能聽懂什麼的時候,你只能假象對方像一個人樣,什麼都能聽得懂。於是,語音互動一旦突破了傳統的邊界,就會一發不可收拾地朝著的方向發展。當你聽到電話語音給你選項邊界的時候,你不會假想對方是人;但是對於Siri這種沒有提供邊界的互動,你很自然的就把對方假象成為一個有智慧、有情感的生物。

很多人喜歡調戲Siri,正是因為你已經把他假象成了一個人,而當它遠遠沒有達到一個正常人應該具備的決策和判斷能力時,你就會形容它很笨。語音互動在剛剛開始的時候,他對標的物件就已經是真實的人。只存在“像人”“不像人”兩種狀態,而不像視覺介面,人們或許還願意去學習它的互動。