1. 程式人生 > >各種音訊編碼方式的對比

各種音訊編碼方式的對比

內容簡介:文章介紹了PCM編碼、WMA編碼、ADPCM編碼、LPC編碼、MP3編碼、AAC編碼、CELP編碼等,包括優缺點對比和主要應用領域。

PCM編碼(原始數字音訊訊號流)
型別:Audio
制定者:ITU-T
所需頻寬:1411.2 Kbps
特性:音源資訊完整,但冗餘度過大
優點:音源資訊儲存完整,音質好
缺點:資訊量大,體積大,冗餘度過大
應用領域:voip
版稅方式:Free
備註:在計算機應用中,能夠達到最高保真水平的就是PCM編碼,被廣泛用於素材儲存及音樂欣賞,CD、DVD以及我們常見的WAV檔案中均有應用。因此,PCM約定俗成了無損編碼,因為PCM代表了數字音訊中最佳的保真水準,並不意味著PCM就能夠確保訊號絕對保真,PCM也只能做到最大程度的無限接近。要算一個PCM音訊流的位元速率是一件很輕鬆的事情,取樣率值×取樣大小值×聲道數bps。一個取樣率為44.1KHz,取樣大小為16bit,雙聲道的PCM編碼的WAV檔案,它的資料速率則為 44.1K×16×2 =1411.2Kbps。我們常見的Audio CD就採用了PCM編碼,一張光碟的容量只能容納72分鐘的音樂資訊。

WMA(Windows Media Audio)
型別:Audio
制定者:微軟公司
所需頻寬:320~112kbps(壓縮10~12倍)
特性:當Bitrate小於128K時,WMA幾乎在同級別的所有有損編碼格式中表現得最出色,但似乎128k是WMA一個檻,當Bitrate再往上提升時,不會有太多的音質改變。
優點:當Bitrate小於128K時,WMA最為出色且編碼後得到的音訊檔案很小。
缺點:當Bitrate大於128K時,WMA音質損失過大。WMA標準不開放,由微軟掌握。
應用領域:voip
版稅方式:按個收取
備註:WMA的全稱是Windows Media Audio,它是微軟公司推出的與MP3格式齊名的一種新的音訊格式。由於WMA在壓縮比和音質方面都超過了MP3,更是遠勝於RA(Real Audio),即使在較低的取樣頻率下也能產生較好的音質,再加上WMA有微軟的Windows Media Player做其強大的後盾,所以一經推出就贏得一片喝彩。

ADPCM( 自適應差分PCM)
型別:Audio
制定者:ITU-T
所需頻寬:32Kbps
特性:ADPCM(adaptive difference pulse code modulation)綜合了APCM的自適應特性和DPCM系統的差分特性,是一種效能比較好的波形編碼。
它的核心想法是:
①利用自適應的思想改變數化階的大小,即使用小的量化階(step-size)去編碼小的差值,使用大的量化階去編碼大的差值;
②使用過去的樣本值估算下一個輸入樣本的預測值,使實際樣本值和預測值之間的差值總是最小。
優點:演算法複雜度低,壓縮比小(CD音質>400kbps),編解碼延時最短(相對其它技術)
缺點:聲音質量一般
應用領域:voip
版稅方式:Free
備註:ADPCM (ADPCM Adaptive Differential Pulse Code Modulation), 是一種針對16bit (或者更高?) 聲音波形資料的一種有失真壓縮演算法, 它將聲音流中每次取樣的 16bit 資料以 4bit 儲存, 所以壓縮比 1:4而壓縮/解壓縮演算法非常的簡單, 所以是一種低空間消耗,高質量聲音獲得的好途徑。

LPC(Linear Predictive Coding,線性預測編碼)
型別:Audio
制定者:
所需頻寬:2Kbps-4.8Kbps
特性:壓縮比大,計算量大,音質不高,廉價
優點:壓縮比大,廉價
缺點:計算量大,語音質量不是很好,自然度較低
應用領域:voip
版稅方式:Free
備註:引數編碼又稱為聲源編碼,是將信源訊號在頻率域或其它正交變換域提取特徵引數,並將其變換成數字程式碼進行傳輸。譯碼為其反過程,將收到的數字序列經變換恢復特徵參量,再根據特徵參量重建語音訊號。具體說,引數編碼是通過對語音訊號特徵引數的提取和編碼,力圖使重建語音訊號具有儘可能高的準確性,但重建訊號的波形同原語音訊號的波形可能會有相當大的差別。如:線性預測編碼(LPC)及其它各種改進型都屬於引數編碼。該編碼位元率可壓縮到2Kbit/s-4.8Kbit/s,甚至更低,但語音質量只能達到中等,特別是自然度較低。

CELP(Code Excited Linear Prediction碼激勵線性預測編碼)
型別:Audio
制定者:歐洲通訊標準協會(ETSI)
所需頻寬:4~16Kbps的速率
特性:改善語音的質量:
① 對誤差訊號進行感覺加權,利用人類聽覺的掩蔽特性來提高語音的主觀質量;
②用分數延遲改進基音預測,使濁音的表達更為準確,尤其改善了女性語音的質量;
③ 使用修正的MSPE準則來尋找 “最佳”的延遲,使得基音週期延遲的外形更為平滑;
④根據長時預測的效率,調整隨機激勵向量的大小,提高語音的主觀質量;
⑤ 使用基於通道錯誤率估計的自適應平滑器,在通道誤位元速率較高的情況下也能合成自然度較高的語音。
結論:
① CELP演算法在低速率編碼環境下可以得到令人滿意的壓縮效果;
②使用快速演算法,可以有效地降低CELP演算法的複雜度,使它完全可以實時地實現;
③CELP可以成功地對各種不同型別的語音訊號進行編碼,這種適應性對於真實環境,尤其是背景噪聲存在時更為重要。
優點:用很低的頻寬提供了較清晰的語音
缺點:-
應用領域:voip
版稅方式:Free
備註:1999年歐洲通訊標準協會(ETSI)推出了基於碼激勵線性預測編碼(CELP)的第三代行動通訊語音編碼標準自適應多速率語音編碼器(AMR),其中最低速率為4.75kb/s,達到通訊質量。CELP碼激勵線性預測編碼是Code Excited Linear Prediction的縮寫。CELP是近10年來最成功的語音編碼演算法。CELP語音編碼演算法用線性預測提取聲道引數,用一個包含許多典型的激勵向量的碼本作為激勵引數,每次編碼時都在這個碼本中搜索一個最佳的激勵向量,這個激勵向量的編碼值就是這個序列的碼本中的序號。
CELP已經被許多語音編碼標準所採用,美國聯邦標準FS1016就是採用CELP的編碼方法,主要用於高質量的窄帶語音保密通訊。CELP(Code-Excited Linear Prediction) 這是一個簡化的 LPC 演算法,以其低位元率著稱(4800-9600Kbps),具有很清晰的語音品質和很高的背景噪音免疫性。CELP是一種在中低速率上廣泛使用的語音壓縮編碼方案。

MPEG-1 audio layer 1
型別:Audio
制定者:MPEG
所需頻寬:384kbps(壓縮4倍)
特性:編碼簡單,用於數字盒式錄音磁帶,2聲道,VCD中使用的音訊壓縮方案就是MPEG-1層Ⅰ。
優點:壓縮方式相對時域壓縮技術而言要複雜得多,同時編碼效率、聲音質量也大幅提高,編碼延時相應增加。可以達到“完全透明”的聲音質量(EBU音質標準)
缺點:頻寬要求較高
應用領域:voip
版稅方式:Free
備註:MPEG-1聲音壓縮編碼是國際上第一個高保真聲音資料壓縮的國際標準,它分為三個層次:
--層1(Layer 1):編碼簡單,用於數字盒式錄音磁帶
--層2(Layer 2):演算法複雜度中等,用於數字音訊廣播(DAB)和VCD等
--層3(Layer 3):編碼複雜,用於網際網路上的高質量聲音的傳輸,如MP3音樂壓縮10倍

MUSICAM(MPEG-1 audio layer 2,即MP2)
型別:Audio
制定者:MPEG
所需頻寬:256~192kbps(壓縮6~8倍)
特性:演算法複雜度中等,用於數字音訊廣播(DAB)和VCD等,2聲道,而MUSICAM由於其適當的複雜程度和優秀的聲音質量,在數字演播室、DAB、DVB等數字節目的製作、交換、儲存、傳送中得到廣泛應用。
優點:壓縮方式相對時域壓縮技術而言要複雜得多,同時編碼效率、聲音質量也大幅提高,編碼延時相應增加。可以達到“完全透明”的聲音質量(EBU音質標準)
缺點:
應用領域:voip
版稅方式:Free
備註:同MPEG-1 audio layer 1

MP3(MPEG-1 audio layer 3)
型別:Audio
制定者:MPEG
所需頻寬:128~112kbps(壓縮10~12倍)
特性:編碼複雜,用於網際網路上的高質量聲音的傳輸,如MP3音樂壓縮10倍,2聲道。MP3是在綜合MUSICAM和ASPEC的優點的基礎上提出的混合壓縮技術,在當時的技術條件下,MP3的複雜度顯得相對較高,編碼不利於實時,但由於MP3在低位元速率條件下高水準的聲音質量,使得它成為軟解壓及網路廣播的寵兒。
優點:壓縮比高,適合用於網際網路上的傳播
缺點:MP3在128KBitrate及以下時,會出現明顯的高頻丟失
應用領域:voip
版稅方式:Free
備註:同MPEG-1 audio layer 1

MPEG-2 audio layer
型別:Audio
制定者:MPEG
所需頻寬:與MPEG-1層1,層2,層3相同
特性:MPEG-2的聲音壓縮編碼採用與MPEG-1聲音相同的編譯碼器,層1、層2和層3的結構也相同,但它能支援5.1聲道和7.1聲道的環繞立體聲。
優點:支援5.1聲道和7.1聲道的環繞立體聲
缺點:-
應用領域:voip
版稅方式:按個收取
備註:MPEG-2的聲音壓縮編碼採用與MPEG-1聲音相同的編譯碼器,層1、層2和層3的結構也相同,但它能支援5.1聲道和7.1聲道的環繞立體聲。

AAC(Advanced Audio Coding ,先進音訊編碼)
型別:Audio
制定者:MPEG
所需頻寬:96-128 kbps
特性:AAC可以支援1到48路之間任意數目的音訊聲道組合、包括15路低頻效果聲道、配音/多語音聲道,以及15路資料。它可同時傳送16套節目,每套節目的音訊及資料結構可任意規定。
AAC主要可能的應用範圍集中在因特網網路傳播、數字音訊廣播,包括衛星直播和數字AM、以及數字電視及影院系統等方面。AAC使用了一種非常靈活的熵編碼核心去傳輸編碼頻譜資料。具有48個主要音訊通道,16 個低頻增強通道,16 個整合資料流, 16 個配音,16 種編排。
優點:支援多種音訊聲道組合,提供優質的音質
缺點:-
應用領域:voip
版稅方式:一次性收費
備註:AAC於1997年形成國際標準ISO 13818-7。先進音訊編碼(Advanced Audio Coding--AAC)開發成功,成為繼MPEG-2音訊標準(ISO/IEC13818-3)之後的新一代音訊壓縮標準。
在MPEG-2制訂的早期,本來是想將其音訊編碼部分保持與MPEG-1相容的。但後來為了適應演播電視的要求而將其定義成為一個可以獲得更高質量的多聲道音訊標準。理所當然地,這個標準是不相容MPEG-1的,因此被稱為MPEG-2AAC。換句話說,從表面上看,要製作和播放AAC,都需要使用與MP3完全不同的工具。

HR
型別:Audio
制定者: 飛利浦
所需頻寬:8Kbps
特性:以增加GSM網路容量為目的,但是會損害語音質量;由於現在網路頻率緊缺,一些大的運營商已經在大城市密集地帶開通此方式以增加容量。
優點:系統容量大
缺點:語音質量差
應用領域:GSM
版稅方式:按個收費
備註:HR半速率,是一種GSM語音編碼方式。

FR
型別:Audio
制定者:飛利浦
所需頻寬:13Kbps
特性:是一般的GSM手機的通訊編碼方式,可以獲得達到4.1左右Qos的語音通訊質量(國際電聯規定語音通訊質量Qos滿分為5)
優點:語音質量得到了提高
缺點:系統容量降低
應用領域:GSM
版稅方式:按個收費
備註:FR全速率,是一種GSM語音編碼方式

EFR
型別:Audio
制定者:飛利浦
所需頻寬:13Kbps
特性:用於GSM手機基於全速率13Kbps的語音編碼和傳送,可以獲得更好更清晰的語音質量(接近Qos4.7)需要網路服務商開通此項網路功能,手機才能配合實現。
優點:音質好
缺點:需要網路服務商開通此項網路功能,且系統容量降低
應用領域:GSM
版稅方式:按個收費
備註:EFR增強型全速率,一種GSM網路語音的編碼方式。

GSM-AMR(Adaptive Multi-Rate)
型別:Audio
制定者:飛利浦
所需頻寬:8Kbps(4.75 Kbps~12.2 Kbps)
特性: 可以對語音進行替換和消音,平滑噪音,支援間斷式傳輸,對語音進行動態偵查。能在各種網路條件下提供優質的語音效果。
優點:音質出色
缺點:-
應用領域:GSM
版稅方式:按個收費
備註:GSM-ASM是一種廣泛使用在GPRS和W-CDMA網路上的音訊標準。在規範ETSI GSM06.90中對GSM-AMR進行了定義。AMR語音編碼是GSM2+和WCDMA的預設編碼標準,是第三代無線通訊系統的語音編碼標準。GSM-AMR標準基於ACELP(代數激勵線性預測)編碼。它能在廣泛的傳輸條件下提供高品質的語音效果。

EVRC(Enhanced Variable Rate Coder,增強型可變速率編碼器)
型別:Audio
制定者:美國Qualcomm通訊公司(即高通)
所需頻寬:8Kbps或13Kbps
特性:支援三種位元速率(9.6 Kbps, 4.8 Kbps 和 1.2 Kbps),噪聲抑制,郵件過濾。能在各種網路條件下提供優質的語音效果。
優點:音質出色
缺點:-
應用領域:CDMA
版稅方式:按個收費
備註:EVRC編碼廣泛使用於CDMA網路。EVRC標準遵循規範TIA IS-127的內容。EVRC編碼基於RCELP(鬆弛碼激勵線性預測)標準。該編碼可以以Rate 1(171bits/packet),Rate1/2(80bits/packet)或是Rate1/8(16bits/packet)的容量進行操作。在要求下,它也能產生空包(0bits/packet)。

QCELP(QualComm Code Excited Linear Predictive,受激線性預測編碼)
型別:Audio
制定者:美國Qualcomm通訊公司(即高通)
所需頻寬:8k的語音編碼演算法(可工作於4/4.8/8/9.6Kbps等固定速率上,而且可變速率地工作於800Kbps~9600Kbps之間)
特性:使用適當的門限值來決定所需速率。QCELP是一種8k的語音編碼演算法(可以在8k的速率下提供接近13k的話音壓縮質量)。這是一種可變速率話音編碼,根據人的說話特性(大家應該能夠體會我們日常的溝通和交流時並不是一直保持某種恆定的方式講話,有間斷、有不同的聲音訊率等都是人的自然表達)而採取的一種優化技術。
優點:話音清晰、背景噪聲小,系統容量大
缺點: 不是Free
應用領域:CDMA
版稅方式:每年支付一筆使用權費用
備註:QCELP,即Qualcomm Code Excited Linear Predictive(Qualcomm受激線性預測編碼)。美國Qualcomm通訊公司的專利語音編碼演算法,是北美第二代數字行動電話(CDMA)的語音編碼標準(IS95)。這種演算法不僅可工作於4/4.8/8/9.6kbit/s等固定速率上,而且可變速率地工作於800bit/s~9600bit/s之間。QCELP演算法被認為是到目前為止效率最高的一種演算法,它的主要特點之一,是使用適當的門限值來決定所需速率。門限值隨背景噪聲電平變化而變化,這樣就抑制了背景噪聲,使得即使在喧鬧的環境中,也能得到良好的話音質量,CDMA8Kbit/s的話音近似GSM 13Mbit/s的話音。CDMA採用QCELP編碼等一系列技術,具有話音清晰、背景噪聲小等優勢,其效能明顯優於其他無線移動通訊系統,語音質量可以與有線電話媲美。 無線輻射低。