1. 程式人生 > >音視訊技術開發週刊 78期

音視訊技術開發週刊 78期

640?wx_fmt=jpeg


音視訊技術開發週刊』由LiveVideoStack團隊出品,專注在音視訊技術領域,縱覽相關技術領域的乾貨和新聞投稿,每週一期。點選『閱讀原文』,瀏覽第78期內容,祝您閱讀愉快。


架構


HDR視訊生態系統縱覽

Flatpanels作者Yoeri Geutskens對HDR視訊生態系統進行了調查並以圖表的形式展示。HDR視訊圖表根據公司業務型別進行分類並通過所使用HDR的格式進行了更詳細的劃分。LiveVideoStack對描述文章進行了翻譯。


跨國實時網路排程系統設計

跨國應用場景下網路的複雜性、不穩定和高丟包率對網路的實時性和流暢性提出了更高的挑戰。本文是即構科技技術副總裁冼牛在LiveVideoStackCon 2018大會上的分享,深入探討了實時網路排程系統的部署、架構設計、挑戰和應對策略。由LiveVdeoStack整理而成。


Netflix資料庫架構變革:縮放時間序列的資料儲存

Netflix分析了其資料集的訪問模式,對檢視資料儲存架構進行了重新設計,並採用群集分片的資料分類方式,實時和壓縮資料並行的讀取模式。以尋求滿足更多的獨特需求與成本,效率的改進。本文來自Netflix技術部落格,LiveVideoStack對文章進行了翻譯。


WebSocket 和 DWR 做 Web 端即時通訊

WebSocket是HTML5出的東西(協議),也就是說HTTP協議沒有變化,或者說沒關係,但HTTP是不支援持久連線的(長連線,迴圈連線的不算)。


GPU和FPGA優缺點的對比

從峰值效能來說,GPU(10Tflops)遠遠高於FPGA(<1TFlops)。GPU上面成千上萬個core同時跑在GHz的頻率上還是非常壯觀的,最新的GPU峰值效能可達10TFlops以上。


音訊/視訊技術


短視訊秒播優化實踐(一)

在短視訊的體驗中,起播速度無疑是最影響體驗的指標之一,因為短視訊很短,十幾秒到幾分鐘不等,如果一個十幾秒的視訊,載入時間都要3秒,肯定是一個很壞的體驗;所以在產品定義之初,起播速度就設定了控制在1秒左右,大部分在1秒內,也就是業內說的“秒播”,這需要對播放流程進行優化。


短視訊秒播優化實踐(二)

之前我們介紹了線上短視訊秒播優化的方方面面,從伺服器,cdn部署接入,資料連線/獲取,客戶端快取,出幀策略,到視訊檔案I幀位置等。本文從視訊檔案格式的另外一個角度介紹,MP4檔案的box排列順序是如何影響,線上短視訊的播放以及秒播優化的。


播放器技術分享(3):音畫同步

第一期文章要推出的內容主要涉及到播放器比較核心的幾個技術點,本篇是系列文章的第三篇,主要聊一聊播放器的音畫同步。


pydub庫---語音增強

最近使用Python呼叫百度的REST API實現語音識別,但是百度要求音訊檔案的壓縮方式只能是pcm(不壓縮)、wav、opus、speex、amr,這裡面也就wav還常見一點,但是一般裝置錄音得到的檔案都是mp3,這就要把mp3轉換為wav。


基於Web Audio API實現音訊視覺化效果

網頁音訊介面最有趣的特性之一它就是可以獲取頻率、波形和其它來自聲源的資料,這些資料可以被用作音訊視覺化。這篇文章將解釋如何做到視覺化,並提供了一些基礎使用案例。


遠場語音技術簡介

遠場語音是一種人與機器間的互動方式,相對與近場語音來說,區別是它的作用距離通常會在1米到10米之間,主要的技術難點在於對於多徑反射、混響效應及背景噪音干擾的處理。


編解碼


基於QoE的實時視訊編碼優化:低功耗,低延時,高質量

在實時通訊領域,只有當Codec的優化適應了當前的網路狀況,裝置平臺及應用場景,使用者才能得到最佳的體驗。在LiveVideoStackCon2018大會中聲網Agora視訊工程師吳曉然詳細介紹瞭如何設計與實現基於QoE的實時視訊編碼優化。本文由LiveVideoStack整理而成。


HEVC CABAC解碼

解碼slice segment data過程中,每碰到1個syntax element需要解析時,需參考Table 9-48等表格組合解析,整理整個流程解碼如下。


Android MediaCodec圖片合成視訊

利用MediaCodec可以錄製視訊,可是可以將圖片合成視訊嗎?之前使用FFmpeg來實現。但是,FFmpeg卻是c++寫的,而且非常佔用記憶體,雖然它是非常棒的音視訊處理庫,但是殺雞焉用牛刀,所以今天就講一下:如何利用Android API中的MediaCodec來實現圖片合成視訊。


FAAD解碼AAC音訊

在使用FAAD解碼前我們首先匯入faad庫,相關庫及原始碼可從https://www.audiocoding.com/faad2.html下載。使用FAAD解碼AAC資料為PCM時,主要分為4個步驟:1、建立解碼器;2、配置解碼器;3、解碼AAC資料為PCM資料;4、解碼完畢,關閉解碼器


AI智慧


快慢結合效果好:FAIR何愷明等人提出視訊識別SlowFast網路

在本文中,FAIR與何愷明等人介紹了用於視訊識別的 SlowFast 網路,提出要分開處理空間結構和時間事件。該模型在視訊動作分類及檢測方面效能強大:在沒有使用任何預訓練的情況下,在 Kinetics 資料集上實現了當前最佳水平;在 AVA 動作檢測資料集上也實現了 28.3 mAP 的當前最佳水準。


物件檢測(object detection)演算法圖解

本文簡要介紹影象檢測中常用的深度學習方法——RCNN家族系列演算法,以影象講解形式,便於理解。


視訊語義分割介紹

隨著深度學習的發展,影象語義分割任務取得了很大的突破,然而視訊語義分割仍然是一個十分具有挑戰性的任務,本文將會介紹視訊語義分割最近幾年頂會上的一些工作。


語音合成的速度如何提升400%?或許你可以瞭解下深度前饋序列記憶網路(附帶英文論文)

迴圈神經網路雖然具有很強的建模能力,但是其訓練通常採用 BPTT 演算法,存在訓練速度緩慢和梯度消失問題。我們之前的工作,提出了一種新穎的非遞迴的網路結構,稱之為前饋序列記憶神經網路(feedforward sequential memory networks, FSMN),可以有效的對訊號中的長時相關性進行建模。相比於迴圈神經網路,FSMN 訓練更加高效,而且可以獲得更好的效能。 


影象


K-Means聚類進行影象處理實戰

在K-Means聚類演算法原理中,我們對K-Means的原理做了總結,本文我們就來討論用scikit-learn來學習K-Means聚類。重點講述如何選擇合適的k值。


影象灰度拉伸

影象灰度拉伸是改變影象對比度的一種方法,通過灰度對映,將原圖中某一區段中的灰度值對映到另一灰度值,從而拉伸或壓縮整個影象的灰度分佈範圍。