全雙工語音對話以及在智慧硬體上的應用 --- 學習筆記
1、全雙工互動 --- 類比的是 人們之間的交談過程一樣
在一般的問答系統裡面,問一句答一句,或者使用多輪互動,全雙工互動希望可以達到的效果是類似人與人之間打電話一樣,
不僅僅是一問一答,可能是使用者說多句話,然後機器人回答一下;甚至機器人可以主動提問來幫助互動
2、面向任務的對話系統 VS 面向過程的對話系統
面向任務的對話系統 --- 將使用者的query進行意圖識別,然後劃分為某個任務,針對性的來進行回答。
面向過程的對話系統 --- 將怎個對話過程全部記住,會記憶住前面的對話內容,來回答,甚至就是將某個人的回答收集在一起,分析他的性格、性別以及以往的興趣愛好。
3、一些技術細節
邊聽邊想,就是在開始進行語音識別的時候,就進行識別,用模型預估後面可能的話是什麼,以及意圖是什麼,這樣可以
減少做出反應的時間
節奏控制 --- 因為要做到人與人之間互動過程一樣的效果,所以得控制好節奏,不可以中間停頓的時間太長;當時間合適的時候,要作出回覆,或者進行對話引導
另外對話引導 --- 判斷使用者的話是不是具有很高的資訊熵(回覆的內容是不是有資訊含量),來判斷是不是應該給出一個新的話題出來。新的話題應該是 和 使用者的興趣 熱門話題 以及 應該和前面的交談內容應該有些關聯 等多個維度
生成模型比檢索模型具有更好的效果 --- 很多的時候是語音識別的時候,具有一些誤差,深度學習模型具有更好的容錯性
4、節奏控制:內容池的排程系統
每段音訊輸出可以定義一個『模式』指定如何排程協調
協調包括的工作,就是什麼時候該機器人作出response,以及使用者上幾句話,是怎麼做處理,儲存起來或者直接忽略掉。
5、還有一些技巧性的設計
預測回覆的時間,要是時間較長,機器還沒有迴應成功,可以先回復一個 “嗯”之類的通用詞,使互動過程更加人性化吧。