1. 程式人生 > >市面主要遠場語音互動技術架構

市面主要遠場語音互動技術架構

為什麼Google Home要採用雙麥方案,而且大部分智慧音箱才用環形六麥?事實上,這是由各家不同的技術架構決定的,當前市面上主要存在三種遠場語音互動技術架構。

1、以Google為代表的純雲端技術架構
首先就是以Google為代表的純雲端技術架構,Google並非不想採用麥克風陣列,因為陣列相比雙麥方案具有了波束形成的功能,自然就擁有了更好的噪聲和去混響能力,當距離較遠或者環境複雜的時候依然能夠保證遠場識別率。但是由於麥克風陣列涉及了前端硬體,這並非Google所擅長,因此Google就希望能通過雲端機器學習的方式來達到類似功能。

但是麥克風陣列的陣元較多,產生的資料容量太大,而當前的網路上傳頻寬嚴重不足,所以只能權衡選擇更少的麥克風。實際上若採用前端方案,大部分場景下單麥克風方案也能達到雙麥方案的效能。當然多一路麥克風訊號對於雲端演算法來說也是很重要的。

2、以科勝訊為代表的純前端技術架構
其次就是以科勝訊為代表的純前端技術架構,雙麥降噪實際上是非常成熟的方案,在智慧手機和藍芽耳機上已經廣泛應用,但是直接應用到語音互動則需要大量適配工作。純前端方案的優點就是容易整合到晶片上,缺點就是很難升級以及擴充套件,這恰好與

人工智慧不斷迭代的趨勢不太相容,也是當前這種方案無法流行的主要原因。

3、以Amazon為代表的前端+雲端方案
最後就是以Amazon為代表的前端+雲端方案,這種方案是把演算法分別放置到前端和雲端,根據具體場景可以調配優化,更容易優化效能並擴充套件功能。這種方案考慮了麥克風陣列與喚醒和識別技術一體化的問題,由於喚醒和識別嚴重依賴麥克風陣列的演算法處理效果,實際上這三種技術是無法完全分割的,特別是麥克風陣列和喚醒技術更是渾然一體。