人類視覺神經科學助力音視訊產業革命 - 弱網下的極限實時通訊

阿新 • • 發佈：2021-09-13

一、什麼是弱網?

1.1 弱網概念

弱網從字面意思看就是網路比較弱, 我們通稱為訊號差, 網速慢, 隨著移動網際網路火熱發展的這些年, 大量使用者會在地鐵, 隧道, 電梯和車庫等特殊場景下使用移動端 APP 。這些場景下, 網路會出現延遲、中斷、抖動、超時等情況。

1.2 網路形態

網路形態包含有線連線, 2G/3G/4G/5G/Edge/Wifi 等多種網路連線形式, 從測試的角度說, 也包含斷網, 網路故障等情況, 對於弱網的資料定義, 不同的應用所界定的含義也是不一樣且不清晰的, 一般來說低於 2G 速率的都屬於弱網, 也可以將 3G 劃分為弱網, 除此之外, 極低寬頻 < 50kbps, 弱訊號的 Wifi 等也是弱網。

1.3 研究背景

有一些特殊場景, 例如 : 森林救災, 邊防監控, 等場景, 這些場景往往關乎國家安全與生命安全, 更加需要嚴苛的實時通訊, 但是這些場景依賴的基站往往會受到自然因素的干擾, 例如地震等自然災害。

二、嘗試了哪些技術嘗試?

2.1 AI 控制

在觀看直播過程中聽到馬老師提出了一個新的概念, 人眼在感知影象的時候, 處理大概是 100B/s, 然後通過視網膜上的細胞進行分離之後, 大概壓縮了 100 倍, 然後經過一系列的細胞處理, 最後只有大約 40b/s, 並且人眼關注的區域解析度相對高一點, 人眼不關注的區域相對解析度就低一點. 並且人眼對於某些區域, 某些顏色特別的敏感, 叫做注意力機制。

傳統的流控技術在進行音視訊編碼和傳輸的過程中往往無法根據具體的網路環境選擇適合的演算法和位元速率控制, AI 控制模組(相當於人腦)會收集視訊會話經驗(人眼關注的東西), 包括視訊編碼器、接收端的編碼狀態、網路、播放狀態, 根據這些特徵, 對抗網路波動, 作出編碼引數的設定決策。

2.2 強化網路主動決策(壓縮和融合)

根據不同使用者, 也就是播放端進行一種個性化的丟幀, 但整體感觀並不會有大差異, 這項技術利用的是多幀視訊時空一致性原理, 基於人的細胞對於不同的影象的特徵敏感度不一樣這一現象, 有些細胞對於顏色敏感, 有些細胞對於運動敏感, 有的細胞對於方向性比較敏感, 有些細胞對於紋理比較敏感, 所以人的大腦對所感知到的音視訊資訊並不是像解碼器一樣一個 bit, 一個 bit 來解碼的, 而是部分解碼的, 所以, 對於任何一個視訊輸入結構, 主要拆分成兩部分, 一部分用來儲存空間上紋理細節的保留, 另一部分對於運動的細節不是那麼敏感, 所以另外一路空間就可以不用佔用那麼高了。當然在融合和重建的過程中, 還需要智慧學習進行補償和轉化。所以最後輸出的音視訊感覺才不會有很大差異。

2.3 基於強化學習的視訊位元速率自適應

根據視訊分類, 網路分類進行線上學習模型訓練, 例如, 大部分男生喜歡遊戲類視訊, 大部分女生喜歡淘寶購物類視訊, 不同分類視訊所返回的視訊位元速率和精度不同, 基於此提出, 能否對不同型別的視訊進行模型訓練, 使用者端在播放不同型別的視訊時會選擇不同的演算法。基於線上學習平臺相對於離線模型效率有一定的提升。

三、個人感悟

3.1 有哪些具體的弱網環境應用落地場景(1 藥網/重慶 120 急救)

1 藥網是在疫情期間緊急開闢了面向武漢的免費線上問診通道, 並以將範圍擴充套件至湖北省全境, 視訊問診, 電子處方和遠端買藥功能採用了聲網 Agora 的實時音視訊技術,在視訊問診的場景中, 由於醫生與患者處於不同的網路環境, 以上所說的弱網環境均有可能出現, 在這些環境下, 聲網 Agora 具備優秀的弱網傳輸和抗丟包演算法, 依然可在 60%的丟包情況下保障音視訊流暢, 70%的丟包網路環境下保障語音的流暢。

120 急救則是通過視訊遠端指導+急救教學視訊指導, 真正做到了為生命爭取機會和時間。但是同樣患者有可能處於弱網環境中, 如何保證音視訊傳輸質量, 依然尤為重要。並且, 急救更講究爭分奪秒, 並且要保證連通率, 接通失敗則可能意味著耽誤急救, 根據官網資料資料顯示聲網在全球有超過 200 個數據中心, 基於此搭建的軟體定義實時網, 在網路較差的環境下, 也能保證穩定可靠, 高質量的傳輸和 99.9%的高連通率。

3.2 心得體會

業務形態在變, 技術必須跟上, 原本以為, 隨著技術的不斷髮展與進步, 例如 5G, GPU, 晶片等硬體裝置的更新升級, 對於軟體研發人員來說, 可以忽略網路抖動或者硬體環境的制約, 更加不會想到, 是否會有一天自己開發的軟體可能需要執行在一個比較苛刻的環境之中, 或者, 所提供的服務, 使用者用用的裝置太老不相容等情況, 所以, 平時很不注重程式碼的健壯性, 能用就行, 湊合用著, 這些習慣竟然已經不知不覺潛移默化影響了我, 不知道有沒有同學是像我一樣, 有則改之, 無則加勉。

之前對於音視訊的概念一直停留在比較傳統的編解碼, 直播拉流, 視訊點播等常見應用之中, 並沒有深思, 每一個使用者所在網路環境的差異化; 所以說研究弱網下的極限視訊通訊並非吹毛求疵, 其有很重要的現實意義, 大到國防安全, 小到人民生活的方方面面。

人工智慧風口下, 結合 AI, 以及人類視覺神經科學, 音視訊領域也可借一把東風, 尋求技術的突破與革新。除此以外, 個人認為, 如邊緣計算, 霧計算等概念的興起與應用, 縮短了使用者與服務之間的距離, 以前多在中心節點部署服務, 現在以微服務的方式部署會更加高效, 比如 WebRTC 的服務到邊緣節點。除此之外, 邊緣節點部署服務成本更低, 節省頻寬。

人類視覺神經科學助力音視訊產業革命 - 弱網下的極限實時通訊

一、什麼是弱網?

1.1 弱網概念

1.2 網路形態

1.3 研究背景

二、嘗試了哪些技術嘗試?

2.1 AI 控制

2.2 強化網路主動決策(壓縮和融合)

2.3 基於強化學習的視訊位元速率自適應

三、個人感悟

3.1 有哪些具體的弱網環境應用落地場景(1 藥網/重慶 120 急救)

3.2 心得體會

人類視覺神經科學助力音視訊產業革命 - 弱網下的極限實時通訊

iOS音視訊(一) -- AVFoundation捕捉

iOS基於WebRTC的音視訊直播實用Demo(2020最新)

iOS 基於WebRTC的音視訊通訊總結篇(2019最新)

爆雷，抖音視訊被曝，我連夜爬了微博評論，結果。。。

Android基於騰訊雲實時音視訊仿微信視訊通話最小化懸浮

Python如何將影象音視訊等資原始檔隱藏在程式碼中(小技巧)

微信小程式仿抖音視訊之整屏上下切換功能的實現程式碼

C++ 在 Unreal 中為遊戲增加實時音視訊互動的教程詳解

音視訊前沿：新一代 AV1 視訊標準究竟是怎樣一種存在？

H5新增——音視訊標籤

JS驗證上傳的檔案是否為音視訊檔案格式

音視訊開發進階指南（二）

（九）內聯框架、音視訊播放

Qt音視訊開發1-vlc解碼播放

ffmpeg音視訊轉單聲道16位16K赫茲小端點pcm音訊

Qt音視訊開發3-vlc錄影儲存

JavaCV音視訊轉單聲道16位16K赫茲小端點pcm音訊

Qt音視訊開發4-vlc讀取和控制

Qt音視訊開發5-vlc事件訂閱

人類視覺神經科學助力音視訊產業革命 - 弱網下的極限實時通訊

一、什麼是弱網?

1.1 弱網概念

1.2 網路形態

1.3 研究背景

二、嘗試了哪些技術嘗試?

2.1 AI 控制

2.2 強化網路主動決策(壓縮和融合)

2.3 基於強化學習的視訊位元速率自適應

三、個人感悟

3.1 有哪些具體的弱網環境應用落地場景(1 藥網/重慶 120 急救)

3.2 心得體會

相關推薦