1. 程式人生 > >音視訊技術開發週刊 81期

音視訊技術開發週刊 81期

640?wx_fmt=jpeg


音視訊技術開發週刊』由LiveVideoStack團隊出品,專注在音視訊技術領域,縱覽相關技術領域的乾貨和新聞投稿,每週一期。點選『閱讀原文』,瀏覽第81期內容,祝您閱讀愉快。


架構


舞臺現場直播技術實踐

舞臺現場直播由於場景複雜度高,對各環節的可靠性要求也非常高。YY音視訊技術專家朱明亮在LiveVideoStack線上交流分享中結合YY直播實踐詳細解析了直播中涉及的視訊採集卡程式設計,軟硬體編碼,視訊濾鏡處理等內容。本文由LiveVideoStack整理而成。


愛奇藝視訊版權保護技術與維權實踐

隨著海量多媒體應用內容的產生,對內容的安全性要求也相應提高.愛奇藝技術產品中心高階經理 陳赫從多個方面介紹了愛奇藝在版權保護上的技術探索與維權實踐.本文來自陳赫在LiveVideoStack線上交流分享,並由LiveVideoStack整理而成。


DASH && Nginx 原始碼解析 && WebRTC學習資料收集


自適應流媒體傳輸(四)——深入理解MPD

在MPEG-DASH中將一組不同編碼引數的媒體內容和相應的描述集合定義為媒體展示(presentation)。這裡的媒體內容是由單個或多個時間上連續的媒體時段(period)組成的,這些媒體時段的內容相互之間可能完全獨立。


SIP筆記-----語音質量分析

目前比較常用的對語音的主觀評定方法是使用MOS方法。根據P.830建議的要求,特定的發話者與聽話者在特定的環境下,通過收集測試者在各種不同情景下的主觀感受,根據P.830的分析法則得出該語音的品質。


音訊/視訊技術


語音識別技術之關鍵詞檢索

語音關鍵詞檢索也叫spoken term detection, 或keyword spotting。有別於大家熟知的文字搜尋的最大特點是語音關鍵詞檢索是對語音檔案的搜尋。


視訊雲肖長傑:視訊AI科技助力短視訊生態

人工智慧技術已經應用到了視訊的生產、傳輸、消費等各個階段。比如,在使用者創作階段,基於人臉識別及跟蹤技術實現瘦臉、大眼、美白功能已經相當常見;當視訊上傳到服務端之後,我們會對視訊內容進行稽核、去重、溯源等處理,並進一步對視訊的打標、分類,同時採用AI技術去定義最有美學感的封面,便於完成使用者個性化搜尋、智慧推薦等動作,提升使用者的點選率和體驗。


搭建直播平臺過程中Android端直播APP原始碼是如何實現連麥功能的?

直播平臺強大的變現能力是大家有目共睹的,很多開發商在搭建直播平臺時為了增加使用者黏性,紛紛將直播中加入連麥功能。

目前市場上通用的有兩種連麥方案:本地混流和雲端混流。


Windows 下視訊採集技術

在 Windows 下主要有兩種方法來採集視訊: 一種是通過 Media Foundation,另一種是通過 DirectShow。Meida Foundation 是 Windows 從 vista 之後推出的一套全新的 多媒體SDK,簡單方便,從 Win7 開始成熟起來。另一種是 DirectShow,它主要用於 win7 之前的採集視訊。


編解碼


MPEG V-PCC專案啟航

本文參考Adrian Pennington近期發表在IBC的文章MPEG heads to the holograph,重點介紹了MPEG正在推廣的基於視訊的點雲壓縮技術 (V-PCC)。V-PCC解決了3D點雲(空間中的一組資料點)的編碼,以及相關的例如顏色的屬性。其目的是啟用包括人物角色表示在內的新應用。換句話說,人形化身或全息圖作為沉浸式擴充套件現實的一部分在不久的將來就會實現。


幀間預測編碼的基本原理

在H.264中,預測編碼與變換/量化編碼、熵編碼並列的重要組成部分,對編解碼器的效能具有重大影響。預測編碼主要包括兩部分:幀內預測和幀間預測。


Netflix:我們是如何評估Codec效能的?

Netflix會定期評估現有和即將推出的視訊編解碼器,不斷優化視訊編碼技術以提供更高質量的服務。本文介紹了視訊編碼器效能評估中的幾項重要元素以及如何從傳統與自適應流媒體兩種視角進行編解碼器效能對比。本文來自Netflix技術部落格,LiveVideoStack進行了翻譯。


H264視訊與pcm音訊合成MP4視訊格式

H.264是壓縮過的資料,PCM是原始資料,MP4是一種視訊封裝格式。實際H.264與PCM不能直接合成MP4格式,因為音訊格式不對。這裡需要中間對音訊做一次壓縮處理。基本流程為:將PCM音訊資料壓縮成AAC格式音訊資料,再將AAC與H.264合成MP4視訊格式。


AI智慧


褲子換裙子,就問你GAN的這波操作秀不秀

把照片裡的綿羊換成長頸鹿、牛仔長褲換成短裙。聽起來有點不可思議,但韓國科學技術院和浦項科技大學的研究人員目前已實現了這一騷操作。他們開發的一種機器學習演算法可在多個影象資料集上實現這種操作。其論文《InstaGAN: Instance-Aware Image-to-Image Translation》已被 ICLR2019 接收。


中科院釋出了目標追蹤資料集,1萬多條視訊,150萬個邊界框

中科院釋出了一個目標追蹤資料集,叫做Got-10k。很大,很精緻。它包含了超過10,000條視訊,主角都是在現實世界裡移動的物體,分成560多個類別。物體的邊界框全部是手動標記,總計超過150萬個。


谷歌新研究用深度學習合成運動模糊效果,手抖也能拍出攝影師級照片

谷歌的研究人員最近開發了一種新技術,使用連續拍攝的一對非模糊影象,能夠合成運動模糊影象。在發表在arXiv上的預印版論文中,研究人員概述了他們的方法,並與幾種基線方法對比,對其進行了評估。


幹掉高速攝像頭!神經網路生成極慢視訊,突破人類肉眼極限(PyTorch實現)

英偉達團隊CVPR-18論文Super SloMo使用深度學習,能將任意視訊變為“高清慢速播放”模式,從此不再錯過任何細節。今天有人開源了PyTorch實現,趕緊來試試吧!


影象


深度學習AI美顏系列----人像靜態/動態貼紙特效演算法實現

人像靜態/動態貼紙特效幾乎已經是所有影象視訊處理類/直播類app的必需品了,這個功能看起來複雜,實際上很簡單,本文將給大家做個詳細的講解。