1. 程式人生 > 實用技巧 >深度解析 | 用AI幫助聽障人群,一共需要幾步?

深度解析 | 用AI幫助聽障人群,一共需要幾步?

允中 發自 凹非寺
量子位 編輯 | 公眾號 QbitAI

你走進澡堂,霧氣瀰漫。眼睛看到的人影模模糊糊。既看不清楚細節,也不知道是誰,只能看到大概輪廓。

你覺得手足無措,一分鐘都不想待在那裡。

你看到的情景,就是聽障人士在真實世界裡聽到的情況。霧氣相當於他們聽到的嘈雜的聲音。所有聲音的細節統統丟失,聽到的人聲和音樂聲,都淹沒在一片非常濃厚嘈雜的噪音裡

對我們健全人來說,一直在霧氣瀰漫的場景裡看東西,可以想象多麼痛苦。對於聽障人士而言,他們一輩子,7×24小時,都被困在了這樣的環境裡。

“如果能幫助他們,讓他們聽得見、聽得清、聽得真,聽到我們健全人能聽見的聲音,那真是一件非常有意義的事情。”騰訊多媒體實驗室高階總監商世東表示。

剛過去的9月27日,國際聾人日當天,騰訊多媒體實驗室聯合騰訊公益慈善基金會、深圳市資訊無障礙研究會等機構召開發佈會,宣佈發起“天籟行動”——面向公益開發者、裝置廠商、相關機構開放騰訊天籟AI音訊技術,應用於聽障人群無障礙建設等相關社會責任領域。

天籟行動,是騰訊“科技向善”的一次最新實踐。從2019年11月11日開始,騰訊將“科技向善”寫進公司最新的使命與願景之中。

科技與人類的關係,在近年越發受到關注和討論。事實上,不只騰訊,諸多科技公司都開始重視和強呼叫好科技,以科技為善:騰訊強調“科技向善”,華為強調“科技至善”。

如何讓“科技向善”不是一句簡單的口號,更要真正成為一個持續落地的使命。其背後的驅動機制,來自科技公司的技術外溢與產品力,帶來持續不斷的技術進步、產品落地和公益體系化建設。

騰訊天籟行動,正是這一科技向善機制的典型體現。騰訊分三步,實現了用AI幫助聽障人士的科技實踐:釋放20餘年音訊技術積累,以產品力將技術落地於聽障人群,為不同定製化場景研發針對性降噪解決方案。最終實現將人工耳蝸語音清晰度和識別度提升40%,極大改善聽障人士的聽覺體驗,讓他們“聽得見”,更“聽得清”。

1、從技術,到場景

優秀的技術研究團隊,都有一個共同的特質:喜歡迎接未知的挑戰,不斷突破;越是遇到棘手的挑戰,就會越興奮。商世東和他所在的騰訊多媒體實驗室,就是這樣一支團隊。

騰訊多媒體實驗室,是騰訊公司前沿技術實驗室之一,專注音視訊通訊技術的前瞻性研究,最擅長語音增強和降噪技術。針對語音在嘈雜環境中的情況,他們把經典訊號處理和機器學習技術融合在一起,加上聲學場景分析技術,打造了一套降噪解決方案。他們把降噪技術應用在包括騰訊會議等多個產品裡,經過各種場景,各種裝置,各樣使用者的體驗和打磨,成功實現了國際領先的核心語音增強和降噪技術指標。

作為一個專注聲音的研究團隊,商世東和同事們在公司的一些無障礙專案交流當中,不止一次接觸到聽障人群。他們對聲音的渴望,以及很多家庭為了孩子獲得聽的權利,付出了很多常人無法想象的努力,他們的堅持和努力,讓人觸動。

“一開始,這個技術是用在健全人的通訊當中。但其實聽障人員更需要語音增強和降噪技術,是用來解決他們聽得見、聽得懂的問題。”商世東說,”降噪技術對健全人是錦上添花,對聽障人士是雪中送炭。”

世界衛生組織(WHO)資料顯示,全球有約11億年輕人(12-35歲之間)面臨聽力損失的風險,約4.66億人患有殘疾性聽力損失。據第二次全國殘疾人抽樣調查結果顯示,我國有聽力殘疾患者2780萬人。而這2780萬聽障人士,通過科技填補自身缺陷的,不到5%。

商世東和騰訊多媒體實驗室的同事們決定,將降噪技術貢獻出來,提供給人工耳蝸廠商,讓他們可以把採集到的聲音訊號進行降噪,幫助聽障人士擺脫噪音煩惱,聽到的乾淨得多、安靜得多的聲音世界。

但當他們試圖把技術運用到人工耳蝸場景時,商世東和團隊發現,他們遇到了前所未有的挑戰:技術不是拿過來就可以用的,他們需要真正瞭解,對人工耳蝸使用者來說,他們感到最痛的問題是什麼。

“技術應用必須要場景驅動。我們需要了解,什麼樣的場景,人工耳蝸使用者他們有最迫切的需要。” 商世東說。

“我們應該為他們做點什麼?我們能為他們做點什麼?”這是商世東和團隊討論最多的問題。

AI降噪技術需要在降噪和聽覺感受之間取得平衡——人們可以聽到一些場景聲音,但不能太吵;不是一點噪聲都沒有,但要能把噪聲能量控制在可接受的範圍之內。

商世東和團隊針對人工耳蝸的使用者痛點,展開了深入調研。他們發現,對於人工耳蝸使用者來說,有四類典型場景:第一類是音樂場景,他們想聽音樂或看電視。第二類是乾淨的純淨語音場景,例如在家裡只有跟家人的對話,沒有太多嘈雜的聲音。第三類是純噪聲的場景,比如戴著人工耳蝸的孩子想出去走一走,馬路上有噪聲,如果除了噪音什麼都聽不見就比較危險。第四類是帶噪的語音場景,比如他們走在嘈雜的街道上,還能聽得清,知道誰在跟他們講話。

第三和第四類場景,是人工耳蝸使用者們最痛的地方。沒有AI降噪技術之前,技術很多時候顧此失彼,把所有的聲音都放大了。他們在家裡跟家人對話能聽到,但是出去之後,有一些不想聽到的聲音就沒辦法遮蔽,特別吵。這時候又不能關掉人工耳蝸,否則什麼都聽不見了。

聽障人士和健全人聽到的聲音波形對比

這個過程中最難的地方在於,如何判斷哪些是噪音,哪些是有用的背景音?你去聽一場交響樂,主旋律之外的鼓點、人們鼓掌的聲音,都是突發的聲音,機器很難判斷是噪音,還是音樂。技術很容易把噪聲識別成音樂。這給他們的研發程序帶來了很大困擾。

“機器對連續的音樂很容易判斷出來,但打擊樂混在裡面,機器很難講它是噪聲還是什麼。就像打個噴嚏,我們語音特徵也會顯示是突發的噪聲。噪聲需要消除,但音樂不能消除,需要把音樂儘可能地保留住。” 商世東說。

為了解決這個困難,騰訊多媒體實驗室針對性開發了針對人工耳蝸使用者的多場景識別技術。通過人工智慧深度學習做場景分類,使用者常見的幾種場景都能準確識別。比如聽障兒童打電話的場景,聲音裡從電話裡出來,跟聲音從日常自然界出來又是不一樣的,這個技術能把電話場景進一步識別出來。

針對人工耳蝸使用者常見的4類聲學場景,騰訊多媒體實驗室在業界首次採用了基於深度學習的殘差網路結構,在多尺度和多級別的網路架構環境之下,對收集到的再造語音進一步的處理。多尺度的架構可以有效的區分上面顯示的4位的聲學場景,而多級別的網路架構可以進一步區分易於混淆的代造和代造語言的場景。

經過這樣的處理,降噪技術總體上取得了96.2%的場景識別準確率。這個結果超過的人工標註的結果,為下一步做進一步增強和語音處理奠定了紮實的基礎。

2、是技術,更是藝術

人工耳蝸雖然小,但是面臨的挑戰巨大。將降噪技術與聽障場景相結合,比起純技術研究的直線突破,更像一場“在針尖上起舞”的藝術。

商世東和團隊必須要解決一個兩難的應用問題:如何在極其有限的算力條件約束下,處理高複雜度的現實噪聲?

使用人工耳蝸的聽障使用者,聽到的聲音跟健全人聽到的聲音有很大區別。一個關鍵原因是,他們本身聽覺細胞比健全人要少得多。

15歲的曉婷,是廣東佛山的高一學生,也是這次天籟行動中的聽障使用者之一。曉婷在兩年前,裝上人工耳蝸,第一次聽到了這個世界的聲音。可她卻無法認出媽媽的聲音。在曉婷聽來,男人的聲音是低沉的,女人的聲音是尖細的,但她無法分辨每個人的聲音有什麼不同。

健全人有15000個聽覺細胞,能夠讓你聽到非常精細的,帶有非常豐富音訊細節的聲音。而聽障人群的聽覺細胞顯著低於健全人,可能只有幾千個、幾百個,甚至於最差的只有幾十個,對聲音的解析力不夠。所以他們聽到的聲音非常模糊,聽不清、聽不見。

助聽器和人工耳蝸,最主要的功能是把音量放大。但是在把音量放大的同時,把很多很多的環境噪聲也放大了。

人耳對噪聲非常敏感,不同頻段的敏感程度也不一樣。當把音量放大以後,健全人覺得並不是太吵的環境噪聲,比方說空調聲、風扇聲,或者是馬路上的聲音,聽障人士聽起來會覺得嘈雜得不得了。

經典的聲音處理,很難提升人工耳蝸對聽障人士帶來的聽覺體驗。經典聲音訊號處理時,如果要達到很好的降噪效果,需要很強的計算能力。人工耳蝸是戴在耳朵上的,既要輕,又沒有電源(現在都是電池供電),所以運算能力非常有限。

當我們的電腦和手機達到主頻是GHz多核架構的時候,人工耳蝸由於尺寸限制,往往只能有幾十MHz的處理能力。在這樣的處理能力條件下,需要高複雜度的噪聲處理成為了業界的難點,為了克服這個難點,很多公司在進行這方面的研究,但一直沒有突破。

人工耳蝸原理圖

今年年初,商世東和團隊找到了國內最大人工耳蝸廠商之一諾爾康公司。他們一起反覆探討,在現有的軟硬體資源侷限條件之下,如何幫助人工耳蝸的佩戴者有更好的體驗。

經過反覆討論和技術驗證,他們最終確定了手機伴侶APP加人工耳蝸的聯合優化方案。在手機上,通過手機強大的語音處理和採集能力,對採集到的語音進行場景識別和場景有針對性的降噪和增量處理。針對處理過的語音,通過有線或者無線的方式傳送到人工耳蝸,人工耳蝸可以進一步刺激相應的聽覺神經,有效的改善聽覺體驗的效果。

針對噪聲消除,騰訊多媒體實驗室有效融合了經典數字訊號處理和深度學習技術。經典數字訊號處理在解決平穩噪聲上有獨特的優勢,計算複雜較低,但處理日常生活中的非頻率噪聲往往力不從心。而深度學習技術有非常優秀的特徵建模能力,可以針對日常生活中的各種噪聲進行準確的建模,從而有效預除生活中突發的噪聲,但深度學習的缺點在於運算量複雜。為了進一步降低運算複雜度,他們採用了多種輔助訓練方法,並把訓練後的模型進一步量化處理,把運算複雜度有效的降低到1兆尺寸以下,解決了低功耗的手機終端上執行降噪處理的難題。

考慮到手機上多麥克風的情況,騰訊多媒體實驗室進一步採用了以前在雷達以及智慧天線領域使用的波束形成技術,進一步輔助降噪和語音的正常的處理,有效對特定方向的語音進行鍼對性加強,同時濾除非特定方向的干擾人聲以及環境噪聲。

通過使用多尺度、多級別的人工智慧機器學習模型,商世東和團隊為不同定製化場景研發了更有針對性的、更優的降噪解決方案,針對場景的識別率從60%提升到平均96%。經過多種技術的整合和處理,有效提升了聽障人士在各種溝通場景之下的效率,幫助消除他們不想聽到的聲音。

試戴新一代人工耳蝸第一天,曉婷和媽媽一起去公園,突然聽見了從來沒有聽過的聲音。媽媽告訴她,這是鳥叫。她說:“媽媽,是兩隻鳥的聲音。”媽媽驚訝了。她從來沒有想到,曉婷不僅能夠聽清鳥叫,還能辨認出是兩隻鳥的叫聲。

騰訊多媒體實驗室釋出天籟行動,用AI技術幫助聽障人士

3、騰訊的“技術外溢”與產品力

值得注意的是,天籟行動並非騰訊偶然一次心血來潮的公益實踐。它是騰訊基於“科技向善”的價值觀,進行體系化、持續性建設的公益產品落地之一。其背後的驅動機制,正是騰訊技術積累的“技術外溢”,以及將技術快速場景化落地的強大產品力。

“天籟行動”之所以能達到顯著的語音增強和降噪效果,既源自於騰訊多媒體實驗室多年的技術積累,尤其是在多媒體方向上的投入,也得益於騰訊內部眾多產品的豐富場景應用、快速迭代創新。

騰訊多媒體實驗室過往20年開發的音訊技術,用在了騰訊QQ,騰訊課堂、騰訊語音等多個產品上,服務於全球最大的體量客戶。

最近的一個例子是騰訊會議的實踐。作為一款上市不到一年的產品,騰訊會議的使用者數已經突破了1億。其快速增長背後,是新一代實時音訊技術加持——為騰訊使用者在使用過程中提供高清、流暢、沉浸的音訊通訊體驗,解決在音視訊場景裡所碰到的挑戰。這個技術就是應用於人工耳蝸的騰訊天籟。

不同技術互相取長補短,才能有更好的體驗。為此,騰訊多媒體實驗室組建了一支多元化的技術團隊。商世東20多年一直在研究音訊技術方向,團隊裡成員的背景也相當豐富:技術領域有偏重於聲學的,有偏重於演算法的,有偏重於機器學習的,有偏重經典訊號處理的。專業背景既有中國頂尖高校,如中科大、北大等畢業的博士生加入,也招募了很多國際知名的人才加盟,包括來自新加坡國立大學、澳大利亞西澳大學,還有在德國工作多年的經典數字訊號處理方面的專業人才……團隊成員相互合作,技術融合創新,一塊打磨音訊體驗。

同時,騰訊發揮自身的產品力優勢,將前沿技術應用到“無障礙”、AI尋人等多項公益產品中,為資訊無障礙貢獻力量,持續為社會創造價值。

從2009年開始,騰訊的QQ、微信等產品,先後針對視障等使用者進行了體驗優化,開發了“無障礙”版本,讓他們通過“聽”也能使用,這些應用也成為他們離不開的生活伴侶。

2018年,QQ空間啟動了“無障礙AI技術”開放專案,將OCR文字識別、語音合成、圖片轉語音等無障礙AI技術,通過小程式開放,企業、開發者可以免費接入。

2019年,優圖實驗室利用深度學習技術,突破“跨年齡人臉識別”技術,助力警方尋回多名被拐十年的兒童,幫助更多的家庭得以團聚。

騰訊優圖實驗室利用人工智慧(AI)深度學習技術,突破“跨年齡人臉識別”

今年,騰訊多媒體實驗室將“新一代實時音訊技術”——騰訊天籟,應用在人工耳蝸上。天籟行動不算驚天動地,但解決的問題存在很大技術挑戰,過去不少嘗試都沒有成功。騰訊為什麼能做到?因為騰訊具備了三點關鍵——騰訊20餘年在音視訊技術領域的積累,擅於將技術場景化落地的產品力,“科技向善”的情懷。

而這三點,也正保證了騰訊未來能持續實踐“科技向善”價值觀:堅持從使用者價值出發,通過科技應用、場景創新,不斷解決社會難題。

“我們要做到‘AI向善’,就要努力讓人工智慧實現‘可知、可控、可用、可靠’。這是全世界共同面對的課題。”騰訊公司董事會主席兼CEO馬化騰表示,“騰訊把‘科技向善’納入公司的使命和願景,我們每天都在研究和應用新科技,歸根到底要為每一位使用者負責。”

榜單徵集!7大獎項鎖定AI TOP企業

「2020中國人工智慧年度評選」正式啟幕!將從公司、人物、產品、社群四大維度共7個獎項尋找優秀的AI企業,歡迎大家掃碼報名參與。

榜單將於12月揭曉,也期待與百萬從業者們,共同見證這些優秀企業的榮譽!

量子位QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見~