音視訊技術開發週刊 78期

阿新 • • 發佈：2018-12-20

640?wx_fmt=jpeg

『音視訊技術開發週刊』由LiveVideoStack團隊出品，專注在音視訊技術領域，縱覽相關技術領域的乾貨和新聞投稿，每週一期。點選『閱讀原文』，瀏覽第78期內容，祝您閱讀愉快。

架構

HDR視訊生態系統縱覽

Flatpanels作者Yoeri Geutskens對HDR視訊生態系統進行了調查並以圖表的形式展示。HDR視訊圖表根據公司業務型別進行分類並通過所使用HDR的格式進行了更詳細的劃分。LiveVideoStack對描述文章進行了翻譯。

跨國實時網路排程系統設計

跨國應用場景下網路的複雜性、不穩定和高丟包率對網路的實時性和流暢性提出了更高的挑戰。本文是即構科技技術副總裁冼牛在LiveVideoStackCon 2018大會上的分享，深入探討了實時網路排程系統的部署、架構設計、挑戰和應對策略。由LiveVdeoStack整理而成。

Netflix資料庫架構變革：縮放時間序列的資料儲存

Netflix分析了其資料集的訪問模式，對檢視資料儲存架構進行了重新設計，並採用群集分片的資料分類方式，實時和壓縮資料並行的讀取模式。以尋求滿足更多的獨特需求與成本，效率的改進。本文來自Netflix技術部落格，LiveVideoStack對文章進行了翻譯。

WebSocket 和 DWR 做 Web 端即時通訊

WebSocket是HTML5出的東西（協議），也就是說HTTP協議沒有變化，或者說沒關係，但HTTP是不支援持久連線的（長連線，迴圈連線的不算）。

GPU和FPGA優缺點的對比

從峰值效能來說，GPU（10Tflops)遠遠高於FPGA(<1TFlops)。GPU上面成千上萬個core同時跑在GHz的頻率上還是非常壯觀的，最新的GPU峰值效能可達10TFlops以上。

音訊/視訊技術

短視訊秒播優化實踐（一）

在短視訊的體驗中，起播速度無疑是最影響體驗的指標之一，因為短視訊很短，十幾秒到幾分鐘不等，如果一個十幾秒的視訊，載入時間都要3秒，肯定是一個很壞的體驗；所以在產品定義之初，起播速度就設定了控制在1秒左右，大部分在1秒內，也就是業內說的“秒播”，這需要對播放流程進行優化。

短視訊秒播優化實踐（二）

之前我們介紹了線上短視訊秒播優化的方方面面，從伺服器，cdn部署接入，資料連線/獲取，客戶端快取，出幀策略，到視訊檔案I幀位置等。本文從視訊檔案格式的另外一個角度介紹，MP4檔案的box排列順序是如何影響，線上短視訊的播放以及秒播優化的。

播放器技術分享（3）：音畫同步

第一期文章要推出的內容主要涉及到播放器比較核心的幾個技術點，本篇是系列文章的第三篇，主要聊一聊播放器的音畫同步。

pydub庫---語音增強

最近使用Python呼叫百度的REST API實現語音識別，但是百度要求音訊檔案的壓縮方式只能是pcm（不壓縮）、wav、opus、speex、amr，這裡面也就wav還常見一點，但是一般裝置錄音得到的檔案都是mp3，這就要把mp3轉換為wav。

基於Web Audio API實現音訊視覺化效果

網頁音訊介面最有趣的特性之一它就是可以獲取頻率、波形和其它來自聲源的資料，這些資料可以被用作音訊視覺化。這篇文章將解釋如何做到視覺化，並提供了一些基礎使用案例。

遠場語音技術簡介

遠場語音是一種人與機器間的互動方式，相對與近場語音來說，區別是它的作用距離通常會在1米到10米之間，主要的技術難點在於對於多徑反射、混響效應及背景噪音干擾的處理。

編解碼

基於QoE的實時視訊編碼優化：低功耗，低延時，高質量

在實時通訊領域，只有當Codec的優化適應了當前的網路狀況，裝置平臺及應用場景，使用者才能得到最佳的體驗。在LiveVideoStackCon2018大會中聲網Agora視訊工程師吳曉然詳細介紹瞭如何設計與實現基於QoE的實時視訊編碼優化。本文由LiveVideoStack整理而成。

HEVC CABAC解碼

解碼slice segment data過程中，每碰到1個syntax element需要解析時，需參考Table 9-48等表格組合解析，整理整個流程解碼如下。

Android MediaCodec圖片合成視訊

利用MediaCodec可以錄製視訊，可是可以將圖片合成視訊嗎？之前使用FFmpeg來實現。但是，FFmpeg卻是c++寫的，而且非常佔用記憶體，雖然它是非常棒的音視訊處理庫，但是殺雞焉用牛刀，所以今天就講一下：如何利用Android API中的MediaCodec來實現圖片合成視訊。

FAAD解碼AAC音訊

在使用FAAD解碼前我們首先匯入faad庫，相關庫及原始碼可從https://www.audiocoding.com/faad2.html下載。使用FAAD解碼AAC資料為PCM時，主要分為4個步驟：1、建立解碼器；2、配置解碼器；3、解碼AAC資料為PCM資料；4、解碼完畢，關閉解碼器

AI智慧

快慢結合效果好：FAIR何愷明等人提出視訊識別SlowFast網路

在本文中，FAIR與何愷明等人介紹了用於視訊識別的 SlowFast 網路，提出要分開處理空間結構和時間事件。該模型在視訊動作分類及檢測方面效能強大：在沒有使用任何預訓練的情況下，在 Kinetics 資料集上實現了當前最佳水平；在 AVA 動作檢測資料集上也實現了 28.3 mAP 的當前最佳水準。

物件檢測（object detection）演算法圖解

本文簡要介紹影象檢測中常用的深度學習方法——RCNN家族系列演算法，以影象講解形式，便於理解。

視訊語義分割介紹

隨著深度學習的發展，影象語義分割任務取得了很大的突破，然而視訊語義分割仍然是一個十分具有挑戰性的任務，本文將會介紹視訊語義分割最近幾年頂會上的一些工作。

語音合成的速度如何提升400％？或許你可以瞭解下深度前饋序列記憶網路（附帶英文論文）

迴圈神經網路雖然具有很強的建模能力，但是其訓練通常採用 BPTT 演算法，存在訓練速度緩慢和梯度消失問題。我們之前的工作，提出了一種新穎的非遞迴的網路結構，稱之為前饋序列記憶神經網路（feedforward sequential memory networks， FSMN），可以有效的對訊號中的長時相關性進行建模。相比於迴圈神經網路，FSMN 訓練更加高效，而且可以獲得更好的效能。

影象

K-Means聚類進行影象處理實戰

在K-Means聚類演算法原理中，我們對K-Means的原理做了總結，本文我們就來討論用scikit-learn來學習K-Means聚類。重點講述如何選擇合適的k值。

影象灰度拉伸

影象灰度拉伸是改變影象對比度的一種方法，通過灰度對映，將原圖中某一區段中的灰度值對映到另一灰度值，從而拉伸或壓縮整個影象的灰度分佈範圍。

音視訊技術開發週刊 78期

『音視訊技術開發週刊』由LiveVideoStack團隊出品，專注在音視訊技術領域，縱覽相關技術領域的乾貨和新聞投稿，每週一期。點選『閱讀原文』，瀏覽第78期內容，祝您閱讀愉快。架構 HDR視訊生態系統縱覽

音視訊技術開發週刊 75期

『音視訊技術開發週刊』由LiveVideoStack團隊出品，專注在音視訊技術領域，縱覽相關技術領域的乾貨和新聞投稿，每週一期。點選『閱讀原文』，瀏覽第75期內容，祝您閱讀愉快。架構 Netflix媒體資料庫：媒體時間線資料模

音視訊技術開發週刊 74期

『音視訊技術開發週刊』由LiveVideoStack團隊出品，專注在音視訊技術領域，縱覽相關技術領域的乾貨和新聞投稿，每週一期。點選『閱讀原文』，瀏覽第74期內容，祝您閱讀愉快。架構 VMAF：未畢之旅本文來自N

音視訊技術開發週刊 77期

『音視訊技術開發週刊』由LiveVideoStack團隊出品，專注在音視訊技術領域，縱覽相關技術領域的乾貨和新聞投稿，每週一期。點選『閱讀原文』，瀏覽第77期內容，祝您閱讀愉快。架構基於FFmpeg的運動視訊分析本文

音視訊技術開發週刊 70期

音視訊技術開發週刊 81期

『音視訊技術開發週刊』由LiveVideoStack團隊出品，專注在音視訊技術領域，縱覽相關技術領域的乾貨和新聞投稿，每週一期。點選『閱讀原文』，瀏覽第81期內容，祝您閱讀愉快。架構舞臺現場直播技術實踐舞臺現場

音視訊技術開發週刊 71期

音視訊技術開發週刊 82期

『音視訊技術開發週刊』由LiveVideoStack團隊出品，專注在音視訊技術領域，縱覽相關技術領域的乾貨和新聞投稿，每週一期。點選『閱讀原文』，瀏覽第82期內容，祝您閱讀愉快。架構基於Licode的WebRTC

【雲棲TechDay】音視訊技術開發實戰專場沙龍，邀您參加

【時間】2018-12-20 下午13:40-18:00【地點】浙江省杭州市蕭山區啟迪路198號杭州灣資訊港A座負一樓國際報告廳【主辦單位】雲棲techday 阿里雲視訊雲團隊簡介音視訊技術是當前非常活躍、發展十分迅速的技術領域。近年來，數字化潮流正在迅猛衝擊模擬領域，數字技術促進了音視訊

快手科技音視訊技術亮相ChinaMM 首次公開多媒體傳輸協議KTP

在中國多媒體大會產業前沿論壇，快手科技演算法科學家周超博士發表題為《多媒體傳輸演算法應用和展望》的演講，首次對外公開了其多媒體傳輸協議KTP（Kwai Transport Protocol，快手傳輸協議），該協議解決了重要的內容傳輸問題。以下為周超博士演講的主要內容。快手的核心理念就是記錄，力

開源實時音視訊技術WebRTC中RTP/RTCP資料傳輸協議的應用

1、前言 RTP/RTCP協議是流媒體通訊的基石。RTP協議定義流媒體資料在網際網路上傳輸的資料包格式，而RTCP協議則負責可靠傳輸、流量控制和擁塞控制等服務質量保證。在WebRTC專案中，RTP/RTCP模組作為傳輸模組的一部分，負責對傳送端採集到的媒體資料進行進行封包，然後交給上層網路模組

LiveVideoStackCon音視訊技術大會首次來到上海

音視訊技術生態盛宴——LiveVideoStackCon將在2019年來到上海，並從即日起開啟招募講師與出品人。文 / 包研 2019年4月12-13日，將迎來LiveVideoStackCon上海大會。這是第三次LiveVideoStackC

打造專遞課堂，即構成為希沃專遞課堂實時音視訊技術唯一提供方

日前，在南昌舉辦的第75屆中國教育裝備展上，希沃和即構zego打造的互動錄播方案亮相。現場將展廳設定為授課教室，廣州、贛州、南昌三個分會場為聽課教室，以每分鐘一場的高頻次互動演示，模擬了身處不同地區的4個教室的互動教學，現場效果令人震撼。據瞭解，該方案也稱“專遞課堂”，目前已在江西、雲南

LiveVideoStack線上交流分享 ( 五 ) —— 線上教育音視訊技術探索與應用

為了給大家提供一個學習，交流的平臺，暢聊音視訊技術開發新趨勢，新實踐。我們推出了LiveVideoStack線上交流分享活動，在每週四晚19:30，邀請1名業內資深技術專家進行線上分享技術乾貨，解答熱點問題。你可以通過以下方式參與：關注LiveVideoStack公眾號【

網路穿透與音視訊技術(1)——NAT的概念及工作模式（上）

（這個專題我們將介紹網路穿透的基本知識，以及建立在此基礎上的實時視訊語音通訊技術。不只是介紹理論知識，還介紹實際案例） 1、概念介紹 1.1、NAT基本概念 NAT英文全稱是“Network Address Translation”，中文意思是“網路

網路穿透與音視訊技術(2)——NAT的概念及工作模式（下）

3、四種NAT對映實現方式上文中我們已經提到三種NAT對映模式，它們是靜態對映（Static NAT）、動態對映（Pooled NAT）和網路地址埠對映（NAPT/PAT），又由於NAPT/PAT對映模式的靈活性和複用性最好，所以它又是目前應用最廣泛的一種對

音視訊技術總結

1. 常用的基本知識基本概念編解碼　　編解碼器（codec）指的是一個能夠對一個訊號或者一個數據流進行變換的裝置或者程式。這裡指的變換既包括將訊號或者資料流進行編碼（通常是為了傳輸、儲存或者加密）或者提取得到一個編碼流的操作，也包括為了觀察或者處理從這個

網路穿透與音視訊技術（4）——NAT對映檢測和常見網路穿越方法論（NAT檢測實踐1）

2.2、檢測過程實戰——伺服器端要進行NAT對映檢測，按照上文提到的檢測方式，我們就需要一個服務端檢測程式。並將服務端檢測程式部署到具有兩個外網IP的硬體環境下。 2.2.1、檢測要求服務端程式至少需要做到以下功能：檢測客戶端和當前伺服器端之間是否至

LiveVideoStack音視訊技術2018年度評獎揭曉

經過一個月的投票與評審，LiveVideoStack評出了音視訊技術2018年度獲獎者。一個月前，LiveVideoStack啟動音視訊技術2018年度評獎，總共獲得393份有效問卷。考慮到一些故意的刷票行為，對這部分投票實行了降權處理。儘管如此，我

即構科技金健忠：回顧20年音視訊技術演進

多媒體技術是一個傳統行業，從模擬到數字，VCD到藍光，從窄帶到寬頻，標清到高清，技術演進讓人的視聽體驗發生了顛覆式的改變。LiveVideoStack採訪了即構科技CTO金健忠，他回顧了過去20年多媒體技術的發展，並展望了未來的技術趨勢。文 / 金健忠策劃 /

音視訊技術開發週刊 78期

相關推薦