1. 程式人生 > 其它 >音視訊基礎(三)音訊編碼原理

音視訊基礎(三)音訊編碼原理

音訊編碼
原始音訊資料在傳輸過程中,佔用頻寬過大,所以為了方便傳輸,需要對音訊進行編碼壓縮

有失真壓縮
消除冗餘資訊,即消除人的聽覺範圍之外的資訊,以及被遮蔽的資訊,這種方式壓縮後,音訊資料無法再還原成原始狀態

訊號遮蔽分為頻域遮蔽與時域遮蔽

無失真壓縮
經過消除冗餘資訊之後,再使用壓縮演算法,對於音訊資料進行無失真壓縮編碼,無失真壓縮後的資料經過解碼後,可以完全恢復

頻域遮蔽效應
相近頻率的聲音,聲音強度高的聲音會把強度低的聲音遮蔽

時域遮蔽效應
相近時間的聲音,聲音強度高的聲音會把強度低的聲音遮蔽

熵編碼(無損編碼)
哈夫曼編碼:用0、1、2等小數字代表字元,資料頻率越高,編碼越小,資料頻率越低,編碼越大
算數編碼:通過二進位制小數進行編碼
夏農編碼:。。。

哈夫曼編碼

音訊編碼過程

常見音訊編解碼器
包含OUPS、AAC、Ogg、Speex、iLBC、AMR、G.711等
AAC在直播系統中使用的比較廣泛,OUPS是比較新的編碼器,WebRTC預設使用OUPS,固話一般使用G.711
從效果來看,OUPS > AAC > Ogg

AAC編解碼器
AAC編碼器集成了MPEG-4標準新特性,加入了SBR和PS技術,目前常用AAC規格有AAC LC、AAC HE V1、AAC HE V2

AAC LC
AAC Low Complexity 低複雜度規格,碼流是128k,音質好

AAC HE V1
AAC LC + SBR(Spectral Band Replication) ,其核心思想是按頻譜分開儲存,低頻編碼儲存主要成分,高頻單獨放大編碼儲存音質,碼流在64k左右

AAC HE V2
AAC LC + SBR + PS(Parametric Stereo),其核心思想是雙聲道中的聲音存在某種相似性,只儲存一個聲道的全部資訊,然後用很少的位元組描述另一個聲道和它不同的地方

AAC格式
ADIF(Audio Data Interchange Format),格式的特徵是可以確定的找到音訊資料的開始,只能從頭開始解碼,不能從音訊資料流中間開始,這種格式通常用於磁碟檔案中
ADTS(Audio Data Transport System),特徵是每一幀都有一個同步字,所以可以在音訊流的任何位置開始解碼,它類似於資料流格式

ADTS格式

Ffmpeg生成AAC