1. 程式人生 > >深度:語音技術革命正在改變人類的交流方式

深度:語音技術革命正在改變人類的交流方式

640?wx_fmt=jpeg

640?wx_fmt=jpeg

來源:資本實驗室


語言是我們日常交流的主要方式,可以讓我們快速瞭解對方的意圖,並做出適當的反應。但對很多語言障礙者而言,說話這一看似簡單的行為依舊是難以想象的困難。


語言是件極其複雜的事情,不僅僅是文字表面上的發音,還與音量、音調、速度、說話環境等眾多因素密切相關。


同一個詞或句子,在不同的場合、不同的音量和速度,所表達的意義也是不同的。比如“你吃了麼?”,可以是兩人見面的問候語;也可以是我正準備去吃飯,如果你沒吃,我們可以結伴去吃飯;還可以是戀人間的關懷;甚至可以是小孩子玩遊戲時,跟玩偶的對話。


語言環境是如此的複雜,而對於那些因受傷或生病而無法說話的人,我們怎樣才能更好的理解他們的想法?他們又如何能更快更有效的表達自己的意圖?


新技術正在快速推動語音生成裝置的進步


自20世紀60年代以來,一些語音技術的先行者就致力於研發語音生成裝置(SGDs)來幫助語言障礙者。


1963年,英國人Maling和Clarkson開發了專為嚴重身體殘疾的人設計的個人通訊工具POSSUM,這是一臺帶開關控制掃描裝置的打字機。


自此,隨著語音合成演算法的進步及微處理器技術的發展,電子輔助和替代通訊系統(AAC)得以快速普及。通訊輔助裝置也變得越來越小巧,功能也越來越強大。


目前,電子輔助和替代通訊系統(AAC)、語音生成裝置(SGDs)、語音輸出通訊輔助裝置(VOCA)已經在美國幫助了200多萬人。患有肌萎縮性側索硬化症(ALS)、腦癱、閉鎖綜合徵、多發性硬化症、帕金森、腦中風、創傷性腦損傷等交流障礙或殘疾人都可以使用這類語音生成裝置。著名物理學家史蒂芬·霍金就使用語音生成裝置與他人進行交流。

640?wx_fmt=jpeg

在過去幾年中,隨著人工智慧技術與語音技術的突破,以及數字裝置功能的指數級增長,數字化語音正在改變人們的交流方式,特別是翻譯和醫療等領域。


據相關資料顯示, 2017年,語音生成裝置市場規模為1.9億美元,預計到2025年將達到3.3億美元。


各科技創新公司和谷歌、微軟等科技巨頭都在努力通過輔助應用APP、語音生成裝置和腦機介面技術幫助語言障礙者能夠更有效地與他人進行交流。 


1)輔助應用APP


智慧手機、平板電腦和數字觸控式螢幕為患者提供更加直接的交流方式。如自閉症患者可以通過觸控式螢幕上的物品影象、活動圖片或符號來表達他們的需求。


Proloquo2Go就是這樣一款面向語言障礙患者的輔助交流工具,適用於自閉症、唐氏綜合症、腦癱和其他診斷患者,目前已有20多萬用戶。

640?wx_fmt=jpeg

此外,還有很多APP可以幫助使用者“說話”,如SayIt!和Predictable這兩款文書處理應用,可以將使用者輸入的文字內容轉化成語音,並具有智慧聯想和自動更正單詞的功能。


MyTalkTools Mobile是由一位父親開發的,以幫助他兒子克服通訊困難,他的兒子出生時患有Nager綜合症,這是一種影響聽力、言語和其他能力的罕見疾病。目前該軟體已擁有超過10萬名使用者。


2017年初,微軟推出了GazeSpeak應用程式,幫助肌萎縮性側索硬化(ALS)患者用眼球運動進行溝通。該應用通過手機攝像頭跟蹤患者的眼睛運動,並用AI進行字詞預測。


2)語音生成裝置


機器學習、自然語言處理和文字預測技術極大地推動輔助通訊技術的發展,語音合成應用可以為使用者提供定製化、個性化的服務。


語音生成裝置可以將單詞或圖片轉化成語音,比輔助應用APP更加先進。某些產品允許使用者可以從幾種不同的聲音中進行選擇,例如男性或女性,兒童或成人,甚至可以選擇一些地域口音。某些演算法模型可以追蹤患者眼睛運動或頭部運動來進行詞彙選擇,併合成語音。


Pocket Go Talk是一款可穿戴的小型行動式AAC裝置,也可以在桌面使用,具有五種可調節的掃描速度。通過5個易操作的按鈕生成25條語音訊息,每條語音可以長達12秒。

640?wx_fmt=jpeg

行動式輔助書寫平板MegaBee是在英國斯托克曼德維爾醫院的閉鎖綜合徵患者的幫助下研發出來的。通過眼球運動和閃爍作為選擇字母或短語的方法,然後在螢幕上顯示,從而幫助中風、多發性硬化症、運動神經元疾病患者及其它語言障礙患者進行交流。

640?wx_fmt=jpeg

還有很多新興科技公司正在利用機器人技術提升患者的社交能力。盧森堡機器人公司LuxAI推出適用於自閉症兒童的社交機器人QTrobot,實驗證明,該機器人可以明顯增加自閉症兒童的注意力和參與度,同時減少他們的焦慮和破壞行為。


美國波士頓公司VocalID利用眾包和語音混合技術為語言障礙患者提供個性化的合成語音。目前已有110多個國家的超過14000人為公司的語音庫The Human Voicebank提供了600多萬句話。


2017年,谷歌宣佈神經網路模型WaveNet正式商用於Google Assistant中,比初始模型效率提高了1000倍,可以更好地模擬自然語音。該模型可以根據真實的人類語音對音訊波形進行建模分析,從中學習並建立自己的聲音。


3)代表未來的腦機介面


意念交流是很多科幻小說和電影裡的場景,而現在科研人員正在通過腦機介面技術將之變成現實。


早在1998年,英國雷丁大學的研究員Kevin Warwick博士在自己的手臂上植入一個發射器來控制門和其它裝置。2002年,他將電極接入自己的神經系統,以便用思維控制輪椅,並允許遠端機器人手臂模仿他的手臂動作。


Warwick博士的目標是幫助語言障礙患者進行溝通,他將一個晶片植入他妻子的手臂,通過網際網路將兩人的大腦聯絡在一起,創造了世界上第一個腦—腦電子通訊。

640?wx_fmt=jpeg

2012年,美國因中風而癱瘓的患者Cathy Hutchinson利用腦植入晶片成功的用思維控制機器手臂端起一杯咖啡,並和吸管中喝了一口。


2014年初,法國公司Axilum Robotics與西班牙巴塞羅那大學、Starlab公司和哈佛醫學院一起進行第一次腦對腦的溝通,在5000公里外,實現了直接在兩個人的大腦之間進行溝通。


2016年埃隆·馬斯克成立了Neuralink公司進行腦機介面研究,以幫助治療人類的腦部疾病。


2018年5月,俄羅斯新西伯利亞國立技術大學聲稱研製出了一款用意念控制的越野輪椅。頸部以下癱瘓者可乘坐該輪椅在室內甚至城市街道上獨立行動。


2018年6月,美國麻省理工學院下屬電腦科學與人工智慧實驗室(CSAIL)的研究人員開發了一種新介面系統,它可以讀取人類操作人員的腦電波,通過思維命令機器執行任務。


目前腦控科技已經成為各國科研人員競相研究的前沿課題。儘管大多數研究目前還停留在實驗室階段,一旦該技術成功商業化,癱瘓者、語言障礙者、盲人等群體將迎來生命中的第二個春天。


語音2.0:語音介面技術和實時翻譯


未來,科技創新將使人類的交流與溝通提升到另外一個層次,它不僅僅是幫助語言障礙患者進行無障礙交流;還會在人與人或人與機器之間進行資訊交換。


由於人類語言的多樣化,限制了人與人之間的溝通,特別是跨國別和跨語種的交流。近幾年,隨著實時翻譯技術的成熟,語言鴻溝正被慢慢地消除。

640?wx_fmt=jpeg

2017年10月,谷歌推出Pixel Buds藍芽耳機,使用Pixel智慧手機即可在40種不同語言之間進行即時翻譯。


微軟的Skype Translator可以對語音、視訊及50種語言的文字內容實現八種語言之間的實時翻譯


各種行動式翻譯裝置可以幫助遊客在幾秒鐘內進行語言翻譯。未來,小小的耳機裝置將打破出行的語言限制,而傳統的翻譯這一職業也將被新技術所替代。


在語言的新技術革命中,手語也正在被技術所替代。2015年,美國德克薩斯A&M大學開發了一款可穿戴裝置,通過感知使用者的手臂動作,將手語翻譯成英語。該裝置可以識別出大約40個美國標準手語動作,準確率達到了96%。


利益於人工智慧技術的飛速發展,機器不僅僅是充當翻譯人員,還可以成為溝通夥伴。據Gartner預測,到今年年底,我們與新技術的互動中有30%將通過與智慧機器完成。目前每六個美國成年人中,就有一個擁有智慧音箱或相關裝置。除了控制智慧家居外,亞馬遜的AI助手Alexa已經可以幫助使用者線上購物。未來AI助手將能實現更多的功能。


無論是在醫療、旅遊、還是商業活動,以人工智慧為代表的新技術正在徹底改變人與人之間的交流方式,並將打破身體、地域、國別、語種的各種限制。未來,我們的交流物件也將不再侷限在人類,可以是機器、可以是動物。


這一切都是科技帶來的福利。

640?

1.10年,嵌入式系統聯誼會感恩有你!

2.反對薪酬保密,一程式設計師公開了矽谷祕密

3.中興41歲老員工:這可能是我第5次失業,和你分享3點忠告

4.STM32資料手冊中都有哪些重要內容不可忽視?

5.工程師們,你覺得模擬技術輝煌時代過去了嗎?

6.老司機們這樣“攻克”STM32!

640?wx_fmt=gif

免責宣告:本文系網路轉載,版權歸原作者所有。如涉及作品版權問題,請與我們聯絡,我們將根據您提供的版權證明材料確認版權並支付稿酬或者刪除內容。