亞馬遜科學家Nikko Ström：將人工智慧助理日常化的夢想照進現實

阿新 • • 發佈：2018-12-12

640?wx_fmt=jpeg

“我覺得有些奇怪，你看上去就像真人，但其實只是電腦發出的聲音。”

“我能理解你作為一個正常人，在洞察力方面的侷限性，你會習慣的。”

——《Her》

2013年，一部美國電影《Her》將人們帶入了人類與AI的互動時空，講述了未來世界，主人公Theodore和Samantha（人工智慧系統OS1）間帶了幾分科幻底色的奇異愛情。電影中的Samantha同現今常見的人工智慧助手一樣，沒有常規意義上的“身體”、氣味、乃至觸覺嗅覺這樣的人類特質，他們彼此單純依靠對話交流，因而有評論稱這更像是“兩個聲音的愛情故事”。從技術角度來看，我們更習慣稱之為“語音互動”——這是一種人機互動方式，即利用人類的自然語言給機器下命令，從而達到自身目的的過程，多被視作“下一代人機互動介面的主要功能”。

640?wx_fmt=jpeg

事實上，語音互動技術一直以來都是人工智慧賴以實現人機互動的重要途徑，更是近年來國內外各大廠爭相搶佔的市場方向。諸多人工智慧學者長期致力於讓機器“聽懂”外界所傳達出的資訊並做出相應的反饋，識別物件跨越自然語言與情感資訊，涉及拾音、語音識別、語義理解，語音合成等方面的技術要求，無疑是個極為複雜的過程。

語音互動主要分為近場互動和遠場互動。近場語音互動主要是指人類距離機器不超過30釐米範圍的語音識別技術，因其利用距離優勢迴避了真實場景下複雜的聲學問題，而被廣泛理解為一種“實驗室理想環境下的語音互動技術”。人們對近場語音識別的研究可追溯到上個世紀，但發展初期始終不得其法。90年代末，IBM推出了第一款商品化的語音識別系統ViaVoice，業界更是開始發出下一代語音互動介面的呼聲，然而過程中的頗多嘗試最終都以失敗告終。

2011年，手機語音助手Siri搭載iPhone4S成功釋出，在全球範圍內引發強烈關注；2014年，微軟於Windows 8的釋出會上正式推出Cortana……至此，近場語音互動開始廣泛走入公眾視野，一路行至今天，已然日趨成熟，例如國內較具代表性的幾款語音輸入，其識別準確率已高達95%。但在最初的新鮮感褪去之後，很多使用者發現這一功能就像嚼過的甘蔗一般僅餘噱頭二三，甚是雞肋。即使在近場語音識別高度發展的今天，其在實際場景的應用中仍多逢壁壘。由此，越來越多的研究將目光投注至遠場語音識別技術。

遠場語音識別是指在較遠的距離條件下（通常是1m-10m），機器對語音加以識別的技術。該技術一般採用麥克風陣列的方式收集語音，廣泛運用於智慧家居、車載導航、會議轉錄等場景。較之理想化情境下的近場語音識別，遠場識別更容易受到真實環境中的背景噪聲、多徑反射和混響，乃至人聲的干擾，遠場語音識別因此在準確率方面也會有大幅下降。遠場語音識別系統通常包含前端訊號處理與後端語音識別模組。前端部分旨在通過語音增強的手段，包括解混響（Dereverberation）、波束成形（Beam Forming）等方法來將含有噪聲和混響的語音儘可能地處理“乾淨”；後端部分與一般的語音識別系統相同，目的在於將處理“乾淨”的語音識別為文字。

2014年，亞馬遜釋出智慧音箱Echo，正式拉開了遠場語音互動的帷幕，更有評論稱其“打開了物聯網的重要入口，已然成為行業標杆一般的存在”。如今，Echo能夠依靠語音助手Alexa實現音樂播放、新聞搜尋、外賣網購下單、線上叫車等一系列服務，在全球範圍內已累積千萬銷量。近年來，正是由於智慧音箱可藉由語音互動提供內容服務、網際網路服務，以及場景化的家居控制能力，國內外巨頭在手機熱之後，紛紛投身智慧音箱市場，加緊不局，力求在一片混戰中分一杯羹。

據CNBC 9 月19日報道，Amazon計劃於今年年底之前，推出至少8款由Alexa支援的互動新裝置，包括微波爐、車載裝置和高階家用音響裝置（包括擴音器、接收器和低音炮）等，其中部分裝置將直接搭載語音助手功能，意在繼續攻堅智慧家居市場。但很顯然，智慧語音服務的未來並不會止步於此，今日的科幻終將照進現實。

作為亞馬遜Senior Principal Scientist、Alexa & Echo技術負責人及團隊初創成員，Nikko Ström擁有資深的語音技術背景，曾就職於多家世界著名的研究實驗室和企業，擁有20年的自動語音識別領域工作經驗。在麻省理工學院電腦科學實驗室擔任科學研究員兩年後，Nikko Ström於2000年加入語音初創企業Tellme Networks，並於2007年轉入微軟核心語音識別團隊，推動最新技術的發展。2011年，他進入Amazon，擔任Senior Principal Scientist，領導語音識別及相關領域的深度學習團隊，繼而成為Amazon Echo團隊的創始成員之一。

640?wx_fmt=jpeg

1997年，Nikko Ström在位於斯德哥爾摩的KTH語音通訊實驗室攻取博士學位，期間所撰論文為說話人自適應（Speaker Adaptation）和人工神經網路（Artificial Neural Network）這兩個技術領域做出了重要貢獻。

作為論文工作的一部分，Nikko Ström開發了世界上第一個瑞典語連續語音識別器。同時，他還發布了開源人工神經網路軟體（NICO Toolkit），並在全球收穫了數千名研究人員的下載。

1994年至1995年期間，他曾任日本京都國際電氣通訊基礎技術研究所（ATR）的特邀嘉賓研究員，在這裡，他為說話人自適應領域的世界級研究做出了頗多貢獻。

作為業餘愛好，他還開發併發布了“Quite BASIC”（http://www.quitebasic.com/），一個完全基於網路的經典培基（BASIC）線上程式設計環境。

……

很快，在人工智慧領域深耕多年的Nikko Ström就要來到中國和廣大AI開發者見面啦——11月8-9日，2018 AI開發者大會（AI NEXTCon）將於北京盛大召開。

作為由中國專業的IT社群CSDN與矽谷AI社群AICamp聯合出品的AI技術與產業年度盛會，本次大會將邀請到近百位中美頂尖AI專家、知名企業代表以及千餘名AI開發者齊聚北京，進行技術解讀和產業論證。這也是繼西雅圖、矽谷、紐約等城市成功舉辦五屆後，AI NEXTCon首次進入中國。Nikko Ström將在大會上結合Amazon Alexa為大家講解其中蘊含的深度學習奧義。

掃描海報二維碼，更多精彩搶“鮮”看。10月12日前購票，立享5折早鳥票優惠！

640?wx_fmt=jpeg

亞馬遜科學家Nikko Ström：將人工智慧助理日常化的夢想照進現實

掃描海報二維碼，更多精彩搶“鮮”看。10月12日前購票，立享5折早鳥票優惠！

亞馬遜科學家Nikko Ström：將人工智慧助理日常化的夢想照進現實

亞馬遜AWS沙龍筆記：如何通過AWS快速發展國際業務？及多種架構方案

蘋果亞馬遜成功之道：平臺和生態系統

阿里如何將“高峰前擴容、高峰後縮容”的夢想照進現實？

乾貨 | 阿里如何將“高峰前擴容、高峰後縮容”的夢想照進現實？

網際網路技術追夢人，用程式碼將夢想照進現實

解讀下一代網路：算力網路正從理想照進現實

從童心，到智心：百度、亞馬遜、谷歌、微軟為何都瞄準了兒童AI？

對話亞馬遜CTO：自治的小型團隊，運營著亞馬遜

eBay起訴亞馬遜：挖角高價值賣家

亞馬遜擬收購印度零售企業7%-8%股份：或在兩週內交易

Cloud一分鐘 | 微軟超越亞馬遜，成為全球企業雲服務提供商霸主；阿里雲深耕電信業：中標聯通2900萬PaaS平臺大單。...

亞馬遜AWS-IoT：從架構到開發

外媒評雙11：亞馬遜Prime Day與之相比顯得有點…

亞馬遜Corretto：另一個OpenJDK

亞馬遜大賣：沒有玩不轉的“站外Deals ”！（下）

後亞馬遜時代，中小賣家如何將 “利潤” 最大化？

python爬蟲（五）：實戰【5. 使用正則爬亞馬遜價格】

python爬蟲（五）：實戰【4. 爬亞馬遜】

亞馬遜第二總部選址基本敲定：弗吉尼亞州水晶城

亞馬遜科學家Nikko Ström：將人工智慧助理日常化的夢想照進現實

掃描海報二維碼，更多精彩搶“鮮”看。10月12日前購票，立享5折早鳥票優惠！

相關推薦