1. 程式人生 > >亞馬遜科學家Nikko Ström:將人工智慧助理日常化的夢想照進現實

亞馬遜科學家Nikko Ström:將人工智慧助理日常化的夢想照進現實

640?wx_fmt=jpeg

“我覺得有些奇怪,你看上去就像真人,但其實只是電腦發出的聲音。”

“我能理解你作為一個正常人,在洞察力方面的侷限性,你會習慣的。”

                                                                                                                                                                ——《Her》

2013年,一部美國電影《Her》將人們帶入了人類與AI的互動時空,講述了未來世界,主人公Theodore和Samantha(人工智慧系統OS1)間帶了幾分科幻底色的奇異愛情。電影中的Samantha同現今常見的人工智慧助手一樣,沒有常規意義上的“身體”、氣味、乃至觸覺嗅覺這樣的人類特質,他們彼此單純依靠對話交流,因而有評論稱這更像是“兩個聲音的愛情故事”。從技術角度來看,我們更習慣稱之為“語音互動”——這是一種人機互動方式,即利用人類的自然語言給機器下命令,從而達到自身目的的過程,多被視作“下一代人機互動介面的主要功能”。

640?wx_fmt=jpeg

事實上,語音互動技術一直以來都是人工智慧賴以實現人機互動的重要途徑,更是近年來國內外各大廠爭相搶佔的市場方向。諸多人工智慧學者長期致力於讓機器“聽懂”外界所傳達出的資訊並做出相應的反饋,識別物件跨越自然語言與情感資訊,涉及拾音、語音識別、語義理解,語音合成等方面的技術要求,無疑是個極為複雜的過程。

語音互動主要分為近場互動和遠場互動。近場語音互動主要是指人類距離機器不超過30釐米範圍的語音識別技術,因其利用距離優勢迴避了真實場景下複雜的聲學問題,而被廣泛理解為一種“實驗室理想環境下的語音互動技術”。人們對近場語音識別的研究可追溯到上個世紀,但發展初期始終不得其法。90年代末,IBM推出了第一款商品化的語音識別系統ViaVoice,業界更是開始發出下一代語音互動介面的呼聲,然而過程中的頗多嘗試最終都以失敗告終。

2011年,手機語音助手Siri搭載iPhone4S成功釋出,在全球範圍內引發強烈關注;2014年,微軟於Windows 8的釋出會上正式推出Cortana……至此,近場語音互動開始廣泛走入公眾視野,一路行至今天,已然日趨成熟,例如國內較具代表性的幾款語音輸入,其識別準確率已高達95%。但在最初的新鮮感褪去之後,很多使用者發現這一功能就像嚼過的甘蔗一般僅餘噱頭二三,甚是雞肋。即使在近場語音識別高度發展的今天,其在實際場景的應用中仍多逢壁壘。由此,越來越多的研究將目光投注至遠場語音識別技術。

遠場語音識別是指在較遠的距離條件下(通常是1m-10m),機器對語音加以識別的技術。該技術一般採用麥克風陣列的方式收集語音,廣泛運用於智慧家居、車載導航、會議轉錄等場景。較之理想化情境下的近場語音識別,遠場識別更容易受到真實環境中的背景噪聲、多徑反射和混響,乃至人聲的干擾,遠場語音識別因此在準確率方面也會有大幅下降。遠場語音識別系統通常包含前端訊號處理與後端語音識別模組。前端部分旨在通過語音增強的手段,包括解混響(Dereverberation)、波束成形(Beam Forming)等方法來將含有噪聲和混響的語音儘可能地處理“乾淨”;後端部分與一般的語音識別系統相同,目的在於將處理“乾淨”的語音識別為文字。

2014年,亞馬遜釋出智慧音箱Echo,正式拉開了遠場語音互動的帷幕,更有評論稱其“打開了物聯網的重要入口,已然成為行業標杆一般的存在”。如今,Echo能夠依靠語音助手Alexa實現音樂播放、新聞搜尋、外賣網購下單、線上叫車等一系列服務,在全球範圍內已累積千萬銷量。近年來,正是由於智慧音箱可藉由語音互動提供內容服務、網際網路服務,以及場景化的家居控制能力,國內外巨頭在手機熱之後,紛紛投身智慧音箱市場,加緊不局,力求在一片混戰中分一杯羹。

據CNBC 9 月19日報道,Amazon計劃於今年年底之前,推出至少8款由Alexa支援的互動新裝置,包括微波爐、車載裝置和高階家用音響裝置(包括擴音器、接收器和低音炮)等,其中部分裝置將直接搭載語音助手功能,意在繼續攻堅智慧家居市場。但很顯然,智慧語音服務的未來並不會止步於此,今日的科幻終將照進現實。

作為亞馬遜Senior Principal Scientist、Alexa & Echo技術負責人及團隊初創成員,Nikko Ström擁有資深的語音技術背景,曾就職於多家世界著名的研究實驗室和企業,擁有20年的自動語音識別領域工作經驗。在麻省理工學院電腦科學實驗室擔任科學研究員兩年後,Nikko Ström於2000年加入語音初創企業Tellme Networks,並於2007年轉入微軟核心語音識別團隊,推動最新技術的發展。2011年,他進入Amazon,擔任Senior Principal Scientist,領導語音識別及相關領域的深度學習團隊,繼而成為Amazon Echo團隊的創始成員之一。

640?wx_fmt=jpeg

1997年,Nikko Ström在位於斯德哥爾摩的KTH語音通訊實驗室攻取博士學位,期間所撰論文為說話人自適應(Speaker Adaptation)和人工神經網路(Artificial Neural Network)這兩個技術領域做出了重要貢獻。

作為論文工作的一部分,Nikko Ström開發了世界上第一個瑞典語連續語音識別器。同時,他還發布了開源人工神經網路軟體(NICO Toolkit),並在全球收穫了數千名研究人員的下載。

1994年至1995年期間,他曾任日本京都國際電氣通訊基礎技術研究所(ATR)的特邀嘉賓研究員,在這裡,他為說話人自適應領域的世界級研究做出了頗多貢獻。

作為業餘愛好,他還開發併發布了“Quite BASIC”(http://www.quitebasic.com/),一個完全基於網路的經典培基(BASIC)線上程式設計環境。

……

很快,在人工智慧領域深耕多年的Nikko Ström就要來到中國和廣大AI開發者見面啦——11月8-9日,2018 AI開發者大會(AI NEXTCon)將於北京盛大召開。

作為由中國專業的IT社群CSDN與矽谷AI社群AICamp聯合出品的AI技術與產業年度盛會,本次大會將邀請到近百位中美頂尖AI專家、知名企業代表以及千餘名AI開發者齊聚北京,進行技術解讀和產業論證。這也是繼西雅圖、矽谷、紐約等城市成功舉辦五屆後,AI NEXTCon首次進入中國。Nikko Ström將在大會上結合Amazon Alexa為大家講解其中蘊含的深度學習奧義。

掃描海報二維碼,更多精彩搶“鮮”看。10月12日前購票,立享5折早鳥票優惠!

640?wx_fmt=jpeg