1. 程式人生 > >音視訊技術開發週刊 71期

音視訊技術開發週刊 71期

640?wx_fmt=jpeg

音視訊技術開發週刊』由LiveVideoStack團隊出品,專注在音視訊技術領域,縱覽相關技術領域的乾貨和新聞投稿,每週一期。點選『閱讀原文』,瀏覽第71期內容,祝您閱讀愉快。

架構

Hulu直播服務難點解析(一):系統需求

Hulu在其部落格釋出了建立直播服務遇到的挑戰及解決方案,這對於以前只提供點播服務的系統而言是一次徹底的升級。LiveVideoStack對原文進行了摘譯。

Hulu直播服務難點解析(二):系統設計與實現

Hulu在其部落格釋出了建立直播服務遇到的挑戰及解決方案,這對於以前只提供點播服務的系統而言是一次徹底的升級。LiveVideoStack對原文進行了摘譯。本文是系列文章的第二篇。

魏偉:學習音視訊技術要先理論再實現

LiveVideoStack採訪了京東雲視訊雲產品研發部的負責人魏偉,他分享了個人經歷,對多媒體技術及行業的趨勢,以及如何抓住這些趨勢。

Netflix:為什麼建立專門的媒體資料庫?

本文解釋了Netflix建立專門的媒體資料庫的原因,包括精準的使用者推薦,極致的編碼以及更高效的實現創意。

Aupera:FPGA讓視訊編碼與AI結合水到渠成

Aupera是一家專注於視訊資料應用的新一代系統解決方案的創業公司,Aupera資深AI工程師Narges Afsham博士接受LiveVideoStack採訪時表示,在FPGA中整合視訊編碼與AI是水到渠成的。

音訊/視訊技術

Android音視訊指南-支援的媒體格式

本文描述了Android平臺提供的媒體編解碼器、容器和網路協議支援。

ijkplayer中遇到的問題彙總

在做音訊播放的時候,很多公司使用的是開源的ijkplayer播放器,ijkplayer底層是基於ffmpeg,在某機型上面可能常常遇到各種問題。本文整理了大家在使用ijkplayer中遇到的問題,以及根據ijkplayer社群issue和solution方案。

超低延遲CMAF流媒體方案解析

在HTTP自適應流媒體(HTTP Adaptive Streaming,HAS)發展的推動下,直播行業的發展使觀眾對OTT質量和延遲有了更高的需求。傳統觀點認為,HAS傳送的內容具有端到端延遲,該延遲是切片(segment)時間的幾倍,並且這種延遲比廣播中的延遲更久。有一種HAS解決方案能夠實現低於一個segment時間的端到端延遲,它甚至使得整個延遲與segment的持續時間無關,即超低延遲CMAF(ULL-CMAF)。

WebRTC中音訊相關的NetEQ(四):控制命令決策

本文講MCU模組如何根據網路延時、抖動緩衝延時和反饋報告等決定發給DSP模組的控制命令, 好讓DSP模組先對取出的語音包做解碼處理(如果有的話)以及根據這些命令做訊號處理。

優化延遲的最佳視訊傳輸方案(一)

要想實現視訊流的最優化傳輸,就必須實現在傳輸的各個階段都協調工作,達到降低延遲最優的效果。首先,說明一下在傳輸過程中的第一個階段的優化:第一公里(the first mile)傳輸中的優化。

優化延遲的最佳視訊傳輸方案(二)

本節將解釋如何將媒體播放器應用程式分離為媒體控制器(用於UI)和媒體會話(用於實際播放器)。它描述了兩種媒體應用程式架構:一種客戶端/伺服器設計,適用於音訊應用程式,另一種是視訊播放器的單活動設計。它還展示瞭如何使媒體應用程式響應硬體控制並與使用音訊輸出流的其他應用程式合作。

編解碼

Xilinx:讓FFmpeg在FPGA上玩的爽

FPGA讓企業和開發者有了新的選擇,尤其在高運算複雜度和實時音視訊場景下。不過FPGA也會帶來較高的學習和開發難度,Xilinx的高階市場經理Sean Gardner告訴LiveVideoStack,Xilinx幾年前就啟動了FPGA對FFmpeg支援的專案,讓FFmpeg開發者可以學習和使用FPGA。

手淘H265編解碼演算法與工程優化

本文來自淘寶(中國)軟體有限公司 高階演算法專家 李曉波在LiveVideoStackCon 2018講師熱身分享,並由LiveVideoStack整理而成。在分享中李曉波詳細解析了手淘在H.265高效編解碼器的實現過程中的所進行的優化探索。

編碼,打包,CDN交付和視訊播放器端的延遲優化

本文主要介紹可能的延遲優化,從編碼,打包,CDN交付以及視訊播放器這些過程,通過調整其中的引數,可以為觀眾提供一個經過精心優化的低延遲直播流。

JPEG、MPEG-1、MPEG-2和MPEG-4編解碼流程對比

視訊編碼標準從H.261開始就採用了基於插值的運動補償預測和DCT變換的混合編碼框架,分別從時域和頻域降低編碼冗餘。本文主要介紹了JPEG、MPEG-1、MPEG-2和MPEG-4編解碼流程框架。

FFmpeg 新舊版本編碼 API 的區別

FFmpeg 3.x 之前,視訊編碼函式為 avcodec_encode_video2,3.x 及之後的版本,avcodec_encode_video2 被棄用,取而代之的是 avcodec_send_frame() 和 avcodec_receive_packet(),下面將從 API 的使用和原始碼實現兩個角度來分析它們的區別。

呼叫FFmpeg SDK解析封裝格式的視訊為音訊流和視訊流

事實上,無論是MP4還是AVI等檔案格式,都有不同的標準格式,對於不同的格式並沒有一種通用的解析方法。因此,FFmpeg專門定義了一個庫來處理設計檔案封裝格式的功能,即libavformat。涉及檔案的封裝、解封裝的問題,都可以通過呼叫libavformat的API實現。這裡我們實現一個Demo來處理音視訊檔案的解複用與解碼的功能。

AI智慧

三維深度學習中的目標分類與語義分割

在過去的幾年中,基於RGB的深度學習已經在目標分類與語義分割方面取得了非常好的效果,也促進了很多技術的發展,深度學習在現實生活中的應用也越來越多。但是在很多實際應用中,例如自動駕駛中,只使用RGB資訊是遠遠不夠的,因為我們不僅僅想要知道周圍有什麼物體,還想要知道物體具體的三維資訊(位置,運動狀態等),因此,三維方面的深度學習也逐漸發展了起來並取得了不錯的效果。

目標檢測最新進展總結與展望

由於深度學習的廣泛運用,目標檢測演算法得到了較為快速的發展,本文廣泛調研國內外目標檢測方法,主要介紹基於深度學習的兩種目標檢測演算法思路,分別為One-Stage目標檢測演算法和Two-Stage目標檢測演算法。

前景目標檢測的無監督學習

人工智慧技術代表著未來無限的可能性,已經在很多領域帶來巨大的衝擊。在足球直播這一領域,版權方需要提供更多更優質的內容以應對日益增長的多元化需求,因此急需提高運營效率的新方式。

從人臉檢測到語義分割,OpenCV預訓練模型庫

OpenCV 的 GitHub 頁面中有一個稱為「open_model_zoo」的資源庫,裡面包含了大量的計算機視覺預訓練模型,並提供了下載方法。使用這些免費預訓練模型可以幫助你加速開發和產品部署過程。

影象的邊緣檢測

邊緣檢測就是一個尋找邊緣畫素的過程,這些邊緣一般就是區域性畫素變化比較顯著的一些點,主要存在於目標和目標以及前景背景之間。找到這些邊緣,對於影象分割與目標識別是很有幫助的。

影象

Pixel 3的超分辨變焦技術

本文來自Google AI部落格,介紹了傳統去除馬賽克的方法,以及如何通過多幀畫面去除馬賽克的原理。但在手機上應用這一技術,需要面對不少挑戰。感謝快手影象演算法工程師章佳傑的翻譯。

iOS效能優化——圖片載入和處理

本文基於WWDC2018-Image and Graphics Best Practices,對圖片載入和處理的思考和總結。