1. 程式人生 > >視訊壓縮編碼問與答

視訊壓縮編碼問與答

1、什麼是H.261編碼協議

        答:
H.261是最早出現的視訊編碼建議,它採用的演算法結合了可減少時間冗餘的幀間預測和可減少空間冗餘的DCT變換的混合編碼方法,其輸出位元速率是p×64kbit/s。p取值較小時,只能傳清晰度不太高的影象,適合於面對面的電視電話;p取值較大時(如 p>6),可以傳輸清晰度較好的會議電檢視像。該標準主要針對ISDN電話線的視訊會議,可視電話等,ISDN的基本速率為64kbps,可以使用多路複用(p×64kbps)。

2、什麼是H.263編碼協議?

        答:
 1996年3月ITU-T制定的H.263標準是一種用於低位元率視訊業務中運動影象部分的壓縮編碼方法。視訊編碼演算法的基本思想是基於ITU-T的H.261標準,把減少空間冗餘的幀內預測法和減少時間冗餘的變換編碼法結合起來。編碼器有運動補償能力,並有一些功能、編碼方法選項。與採用全象素精度和一個環形濾波器的H.261標準的運動補償比較,H.263標準採用了半象素精度位移估值。除了基本的視訊源編碼演算法外,為了改善效能,它包含4個可選的編碼方案:非限制運動向量,先進預測模式,PB幀模式和基於語法的算術編碼。H.263是對原有標準的修訂和改進,包括影象格式、總開銷和減少方塊效應等。儘管這些選項使編碼器複雜,但能顯著改善影象的質量。
        
        為了提高編碼效率,1997年9月ITU-T又制定了H.263+(H.263的第二版)標準,它是相容H.263的。H.263+能更好的提高恢復影象的質量和壓縮效能,有廣闊的應用前景。H.263+在H.263的基礎上實施了許多改進,它允許使用更多的影象格式、影象形狀和時鐘頻率。這就增加了H.263+應用的靈活性。另外,影象大小、形狀和時鐘頻率可以在H.263+的位元流中給出。H.263+在H.263的基礎上的另一個重要改進是採用可放縮性,它能提高視訊資訊在易出錯、資料丟失或不同環境中的傳輸正確率,進一步限制影象


3、什麼是H.264(MPEG-4 Part 10) 編碼協議?其技術亮點是什麼?

        
答: H.264是ITU-T的VCEG(視訊編碼專家組)和ISO/IEC的MPEG(活動影象編碼專家組)的聯合視訊組(JVT:joint video team)開發的一個新的數字視訊編碼標準,它既是ITU-T的H.264(MPEG-4 Part 10) ,又是ISO/IEC的MPEG-4的第10 部分。1998年1月份開始草案徵集,1999年9月,完成第一個草案,2001年5月制定了其測試模式TML-8,2002年6月的 JVT第5次會議通過了H.264(MPEG-4 Part 10) 的FCD板。

        H.264(MPEG-4 Part 10) 和以前的標準一樣,也是DPCM加變換編碼的混合編碼模式。但它採用“迴歸基本”的簡潔設計,不用眾多的選項,獲得比H.263++好得多的壓縮效能;加強了對各種通道的適應能力,採用“網路友好”的結構和語法,有利於對誤碼和丟包的處理;應用目標範圍較寬,以滿足不同速率、不同解析度以及不同傳輸(儲存)場合的需求;它的基本系統是開放的,使用無需版權。
 
        在技術上,H.264(MPEG-4 Part 10) 標準中有多個閃光之處,如統一的VLC符號編碼,高精度、多模式的位移估計,基於4×4塊的整數變換、分層的編碼語法等。這些措施使得H.264(MPEG-4 Part 10) 演算法具有很的高編碼效率,在相同的重建影象質量下,能夠比H.263節約50%左右的位元速率。H.264(MPEG-4 Part 10) 的碼流結構網路適應性強,增加了差錯恢復能力,能夠很好地適應IP和無線網路的應用。

技術亮點:

(1)分層設計


        H.264(MPEG-4 Part 10) 的演算法在概念上可以分為兩層:視訊編碼層(VCL:Video Coding Layer)負責高效的視訊內容表示,網路提取層(NAL:Network Abstraction Layer)負責以網路所要求的恰當的方式對資料進行打包和傳送。在VCL和NAL之間定義了一個基於分組方式的介面,打包和相應的信令屬於NAL的一部分。這樣,高編碼效率和網路友好性的任務分別由VCL和NAL來完成。

(2)高精度、多模式運動估計

        H.264(MPEG-4 Part 10) 支援1/4或1/8畫素精度的運動向量。在1/4畫素精度時可使用6抽頭濾波器來減少高頻噪聲,對於1/8畫素精度的運動向量,可使用更為複雜的8抽頭的濾波器。在進行運動估計時,編碼器還可選擇“增強”內插濾波器來提高預測的效果。

(3)4×4塊的整數變換

        H.264(MPEG-4 Part 10) 與先前的標準相似,對殘差採用基於塊的變換編碼,但變換是整數操作而不是實數運算,其過程和DCT基本相似。這種方法的優點在於:在編碼器中和解碼器中允許精度相同的變換和反變換,便於使用簡單的定點運算方式。也就是說,這裡沒有“變換誤差”。變換的單位是4×4塊,而不是以往常用的8×8塊。由於用於變換塊的尺寸縮小,運動物體的劃分更精確,這樣,不但變換計算量比較小,而且在運動物體邊緣處的銜接誤差也大為減小。

(4)統一的VLC

        H.264(MPEG-4 Part 10) 中熵編碼有兩種方法,一種是對所有的待編碼的符號採用統一的VLC(UVLC :Universal VLC),另一種是採用內容自適應的二進位制算術編碼(CABAC:Context-Adaptive Binary Arithmetic Coding)。CABAC是可選項,其編碼效能比UVLC稍好,但計算複雜度也高。UVLC使用一個長度無限的碼字集,設計結構非常有規則,用相同的碼錶可以對不同的物件進行編碼。這種方法很容易產生一個碼字,而解碼器也很容易地識別碼字的字首,UVLC在發生位元錯誤時能快速獲得重同步。

(5)幀內預測
        在先前的H.26x系列和MPEG-x系列標準中,都是採用的幀間預測的方式。在H.264(MPEG-4 Part 10) 中,當編碼Intra影象時可用幀內預測。對於每個4×4塊(除了邊緣塊特別處置以外),每個畫素都可用17個最接近的先前已編碼的畫素的不同加權和(有的權值可為0)來預測,即此畫素所在塊的左上角的17個畫素。顯然,這種幀內預測不是在時間上,而是在空間域上進行的預測編碼演算法,可以除去相鄰塊之間的空間冗餘度,取得更為有效的壓縮。

(6)面向IP和無線環境

        H.264(MPEG-4 Part 10)  草案中包含了用於差錯消除的工具,便於壓縮視訊在誤碼、丟包多發環境中傳輸,如移動通道或IP通道中傳輸的健壯性。 

4、什麼是視訊前處理技術?

        答: 
視訊前處理過程首先將複合的模擬視訊訊號數字化後,分離出亮度訊號和色度訊號,再濾掉訊號中的噪聲,轉換為世界通用的中間格式CIF或QCIF。該過程還可解決亮度與色度訊號串擾,減少疊折干擾的作用。

        視訊訊號在儲存、傳輸過程中都可能會受到噪聲的干擾。信源的質量對後面的壓縮編碼部分的效能有重要影響,在系統設計時必須考慮到這一點,尤其在編碼的輸出目標位元速率較低時這一點顯得更為重要。噪聲增加了輸入端的資訊量,而且圖象的相關性減弱,使得後續的壓縮編碼較為困難。最壞情況時只有一小部分輸出位元速率用於傳送訊號的資訊,大部分則消耗在噪聲資訊的傳送上。這時恢復訊號的SNR往往要較信源噪聲較小的圖象恢復的情況要壞得多。

   分析表明,信源的信噪比對於混合編碼器的效能有很大影響。Junji Kumada曾經計算了混合編碼器的率失真函式(RDF)和輸入訊號信噪比的關係。率失真函式在理論上給出了在一定失真的情況下,信源編碼所需的最低資訊速率。該值與信源本身的功率密度譜(PSD)有關。
不同輸入信噪比條件下的編碼器的率失真函式曲線如下圖所示。假定圖象序列相鄰象素的相關係數為0.95。可以看出,信源的SNR對於編碼器的效能有很大影響:在信源SNR為30dB時,若要保證輸出信噪比為50dB至少需要4位元/象素,而信源沒有噪聲干擾時則僅需2位元/象素,所需編碼位元數增加一倍。 
     

        因此,為提高壓縮編碼的效能,有必要對混雜噪聲的訊號進行濾波。常用的濾波方法包括線性和非線性濾波。中值濾波屬於非線性濾波,它被認為是消除脈衝干擾的有效手段,但對一些其他型別的干擾,如高斯分佈的噪聲,其效果則近似於一個低通濾波器。常用的線性濾波器是FIR濾波器,這類濾波器通常用來對訊號進行限帶處理。 

        在圖象處理中廣泛採用二維濾波器,這是因為一般而言圖象訊號水平和垂直方向都有較強的相關性,但把一維中值濾波器簡單地推廣到二維,效果卻不是很好,該濾波器在平滑噪聲的同時,也去掉了一定的圖象細節。因此人們提出了很多種改進的濾波器,用來保留圖象的細節。棧濾波器(中值濾波器)便是其中的一種。當然,考慮到實現上的簡單性,一般採用一維濾波器。

6、圖象資料壓縮基本方法有哪些?
 
答:

     1)預測編碼 

        預測編碼旨在去除相鄰畫素之間的冗餘度,差分脈碼調製(簡稱DPCM)是它的一種基本方法。DPCM的原理方塊圖如圖1(a)所示: 

        ——輸入訊號x(n)是量化前的影象訊號取樣值,虛線框內的電路稱為預測器,其中Di和ai(i=1,2,……,N)分別為延遲單元和固定的加權係數值,Q為量化器。預測器根據前N個鄰近畫素的樣值推算出當前樣值x(n)的估計值 
       

        其中τ為取樣間隔。編碼器對預測誤差訊號進行量化、編碼傳送,而不是傳送x(n)本身。由於相鄰畫素之間相關性,預測值接近於x(n)。因此,通過預測將x(n)轉換成e(n),在很大程式上降低了信源的冗餘。用量化臺階相同的量化器量化e(n),所需的量化電平數要大大少於x(n),這便是通過DPCM進行資料壓縮的基本原理。在解碼端利用一個相同的預測器,可以恢復出原訊號x(n)的近似值y(n),其誤差是由於對e(n)的均方值最小。此時的預測器稱為最佳預測器。 

         如果用作預測的畫素與被預測畫素X在同一掃描行內(如圖(b)中的x1,x2),稱為一維預測;當用作預測的畫素位於相鄰的不同掃描行上時(如圖(b)中的x3,x4)則稱為二維預測。

2)變換編碼

        變換編碼也是一種降低信源空間冗餘度的壓縮方法。我們熟悉的富氏變換就是一種正交變換。如果把取樣後的影象看作一個二維的矩陣,對此矩陣作二維離散富氏變換(DFT),所得到的變換域中的各元素(變換系數),對應著影象中不同頻率成份的復振幅值。由於畫面在內容上的連續性,影象矩陣中相鄰元素之間的相關性很強,而經變換後,變換系數(不同頻率的復振幅)值之間,顯然相關性要小得多。研究證明,各種正交變換(例如,K-L變換,餘弦變換,沃什變換等)都能在不同程度上減少隨機向量的相關性。由於變換所產生的變換系數之間的相關性很小,可以分別獨立地對其進行處理;而且訊號經大多數正交變換後,能量都集中在少數係數上,通過量化刪去對影象訊號貢獻小的係數,只用保留下的係數來恢復原影象,並不引起明顯的失真。這就是利用正交變換進行資料壓縮的基本原理。 

        在最小均方誤差準則下,最佳的正交變換是卡南-洛伊夫(K-L)變換,它所給出的變換系數是互不相關的。但是由於計算的複雜性,K-L變換的實際應用甚少。離散餘弦變換(DCT)是一種效能接近K-L變換的正交變換,並具有多種快速演算法,因而在資料壓縮中被廣泛地採用。一個N×N的二維DCT由下式定義: 
 

 3) 量化 

         DPCM將畫素值轉換為預測誤差值e(n);DC將畫素值轉換為DCT係數值,二者都僅僅是變換一種形式來表達原來用畫素值表示的影象。只有在對預測誤差,或對DCT係數進行量化時,才引入資訊的損失。在同樣的信噪比下,對轉換後的引數進行量化所得到的資料率比對原影象量化要低,從而達到壓要取得好的壓縮效果,DPCM量化器的設計要與e(n)的統計特性相匹配。同時,考慮到視覺的空間掩蔽效應,在亮度變化密集的區域性區域,還可以使用較大的量化臺階,以進一步提高壓縮比。 

         DCT係數的理化與DPCM不同,DPCM中量化誤差隻影響與誤差產生點相鄰的畫素,而某個DCT係數的量化誤差,經反變換後會影響到整塊影象中的每一個畫素值。幅度很小的高頻DCT係數量化後為0,可以忽略。由於人眼對高頻分量的不敏感,忽略高頻分量後所恢復的影象,仍有較高的質量。剩餘的DCT係數,相互之間的相關性已經很小,可以根據各個係數對視覺影響的大小,分別採用不同大小的臺階量化。為簡化系統起見,通常的作法是,將各個係數乘以不同的權值以後,用同一個量化器量化。

        ——為了充分地利用視覺的空間掩蔽效應,提高壓縮比,無論是DPCM,還是DCT係數的量化器都可以通過動態的自適應量化器來實現。自適應量化器有一組預先設定好的量化臺階,根據檢測到的影象細節豐富程度,量化器自動選用相應的量化臺階。

4) 熵編碼

        熵編碼旨在去除信源的統計冗餘資訊,霍夫曼編碼是最常見的熵編碼方法。我們用下面的例子來說明它的基本概念。假設經量化後,信源輸出4種電錶站,分別用Si(i=1,2,3,4)表示。每種電平出現的概率如表1中第2行所示。為了便於儲存和傳輸,我們用0和1兩個符號來代表這4種電平,這個過程稱為編碼。通常的編碼方式如表1的第3行所示,每個電平都用一個等長的碼字表示。 

        霍夫曼碼的基本思想是,對出現概率較大的符號(電平)取較短的碼,而對概率較小的符號則取較長的碼,因此它是一種變長碼。表1的第4行給出了對應於本例的碼字。假設信源輸出的序列如(5)式所示,用上述兩種編碼得到的碼流分別如(6)和(7)式所示。
   
        原信源輸出序列 S1   S2   S1   S3   S2   S1   S1   S4 (5)
        
        等長編碼序列 00   01   00   10   01   00   00   11 (6)
        
        霍夫曼編碼序列 0   10   0   110   10   0   0   111 (7)

        可以看出,表示這一段符號等長碼需要16bit,而霍夫曼碼只需要14bit。霍夫曼編碼能夠進行資料壓縮的原因在於,總將原信源符號轉換成新的符號(0,1),而新符號出現的概率相等,不存在統計冗餘,這可以從(7)式中0和1出現的頻率相同得到驗證。

        常用的熵編碼還有算術編碼,仙農碼和遊程編碼等。所有這些編碼方式都不引起資訊的損失,因而稱為無損編碼。

5)具有運動補償的幀間預測編碼

(1)序列影象的運動估值


        消除序列影象在時間上的冗餘,是視訊編碼的另一重要途徑。序列影象的時間冗餘表現在:

  • (1)對於靜止的場景,當前幀和前一幀是完全相同的;
  • (2)對於運動的物體,只要知道其運動規律,就可以從前一幀影象推算出它在當前幀中的位置來。因此,編碼器只要將物體的運動資訊(運動速度,或靜止)告知解碼器,解碼器就可根據此資訊和前一幀影象來更新當前影象,這比傳送當前影象所需的資料量要小得多。而要這樣做,一個首先要解決的問題是如何從序列影象中提取有關物體的運動資訊,這通常稱為運動估值。

        比較成熟的估值方法主要分為兩大類:塊匹配方法和畫素遞迴法。兩類方法都只估計物體的平移,其中塊匹配方法應用比較廣泛。 

         塊匹配方法將影象劃分成許多方塊,並認為每個子塊中所有畫素的位移量都相同。對於第k幀中的每一子塊,在第K-1幀中找到與其最相似的子塊,稱為匹配快。匹配塊偏離原來位置的距離(見圖2(a))決定了該子塊的位移向量(或稱運動向量)D。 

       
         判斷兩個子塊匹配最常用的準則是求幀間亮度差的絕對值的均值MAD: 
   

        其中bk和bk-1分別代表k和k-1幀的畫素亮度值,M、N為子塊的水平和垂直畫素數,dM為最大可能平移的水平和垂直畫素數(見圖2(b))。當MAD最小時,表示兩個子塊匹配。

        為了尋找最佳匹配塊,我們需要將k-1幀中對應的子塊沿水平和垂直方向逐個畫素移動,每移動一次計算一次MAD由圖2(b)看出,在(M+2dM)×(N+2dM)的搜尋範圍內,總的移動次數為(2dM+1)2。這種搜尋方式稱為全搜尋,其運算量是很大的。為了加快搜索過程,人們已經提出了若干不同的搜尋方法。

(2)幀間預測編碼

        幀間預測與消除空間冗餘的預測編碼相類似,即不直接傳送當前幀(k幀)的畫素值x,而是傳送x與前一幀的對應畫素x'之間的差值(見圖2(a))。考慮到影象中存在著運動物體,我們傳送x與前一幀經位移後所對應的畫素x''之間的差值,這種方法稱為具有運動補償的幀間預測。顯然,它給出的預測誤差要比簡單的幀間預測低,因而可以達到更高的壓縮比。需要指出,在傳送經運動補償的幀間預測誤差的同時,還需將該子塊對就的運動量傳送給解碼器,以便解碼器能夠從已收到的前一幀(k-1幀)資訊中恢復出該子塊來。

      用k-1幀預測k幀影象的方式稱為前向預測。如果待測子塊在k-1幀,而搜尋區處在k幀,也就是從後續的k幀預測前面的k-1幀影象,這種方式稱為後向預測。為了提高壓縮比,往往還採用由前、後兩幀來預測中間幀的方法,稱為雙向預測,此時有兩個運動向量需要作為附加資訊傳送給解碼器。

6)其他編碼方法


        其他的壓縮編碼方式,例如,子帶濾波/小波變換,向量量化,分形編碼及基於模型的編碼等,在這裡不一一介紹。

音訊壓縮編碼

1、什麼是語音編碼技術?其發展與現狀是怎樣的?

        答:
語音訊號的數字化傳輸,一直是通訊的發展方向之一。採用低速率語音編碼技術進行語音傳輸比語音訊號模擬傳輸有諸多優點,現代通訊的發展趨勢決定了語音編碼技術的兩大突出優勢:

  • 大大節省了頻寬。從最初的PCM64k編碼到現在標準語音壓縮協議,如G.723編碼速率為5.3K或6.3Kbps;G.729編碼速率為8Kbps。還有未形成協議標準但更低的編碼速率已有成熟的演算法可以實現,如AMBE、CELP、RELP、VSELP、MELP、MP-MLQ、LPC-10等多種語音壓縮演算法,最低編碼速率達到2.4kbps,有些演算法已在包括第三代移動通訊系統(3G)的多個領域得到應用。
  • 便於實現與IP融合。Internet的成功運用使得與IP的融合已成必然的發展趨勢。分組語音即將分組交換的概念與語音傳輸相結合,使得語音資訊更易於接入IP網。而分組語音的關鍵技術之一就是語音編碼技術,低速率的語音編碼技術對語音資訊的實時性有更好的保證。採用分組語音傳輸的網路,其傳輸的語音資訊本身就是分組資料包,這樣的語音資訊在接入Internet時將是非常的方便。

        語音編碼既可用軟體也可用硬體的方法實現。軟體實現就是將壓縮演算法用軟體方法實現,這樣做的好處是成本低、修改方便靈活,但處理速度較慢,不易保證處理的實時性。採用硬體實現就是將語音壓縮演算法固化到專用DSP晶片中,這樣處理速度快,便於實時處理。

2、1.1.2 什麼是G.711編碼?

        答:
G.711建議一種典型的採用PCM波形編碼的壓縮編解碼方法,可以獲得較高的語音質量,但資料壓縮率低。

        G.711建議描述了PCM的μ律(A律)壓縮,如下圖所示: 
      

        取樣率為8kHz,12bit線性A/D變換為數字訊號,再經過對數PCM後壓縮為8bit,一路音訊為64kbit/s。

音訊壓縮技術

1、音訊訊號的指標有哪些? 
  
        答:
1)頻頻寬度:音訊訊號的頻帶越寬,所包含的音訊訊號分量越豐富,音質越好。 
       
 
        2)動態範圍:動態範圍越大,訊號強度的相對變化範圍越大,音響效果越好。 
  
        
        3)信噪比:信噪比SNR(Signal to Noise Ratio)是有用訊號與噪聲之比的簡稱。 噪音可分為環境噪音和裝置噪音。信噪比越大,聲音質量越好。 
                

        4)主觀度量法:人的感覺機理對聲音的度量最有決定意義。感覺上的、主觀上的測試是評價聲音質量不可缺少的部分。當然,可靠的主觀度量值是較難獲得的。

2、 什麼是音訊數字音訊原理?

        答:  由於音訊訊號是一種連續變化的模擬訊號,而計算機只能處理和記錄二進位制的數字訊號,因此,由自然音源而得的音訊訊號必須經過一定的變化和處理,變成二進位制資料後才能送到計算機進行再編輯和存貯。
    
        PCM(Pulse Code Modulation)脈衝編碼調製是一種模數轉換的最基本編碼方法。它把模擬訊號轉換成數字訊號的過程稱為模/數轉換,它主要包括:

  • 取樣:在時間軸上對訊號數字化;
  • 量化:在幅度軸上對訊號數字化;
  • 編碼:按一定格式記錄取樣和量化後的數字資料。 


        編碼的過程首先用一組脈衝取樣時鐘訊號與輸入的模擬音訊訊號相乘,相乘的結果即輸入訊號在時間軸上的數字化。然後對取樣以後的訊號幅值進行量化。最簡單的量化方法是均衡量化,這個量化的過程由量化器來完成。對經量化器A/D變換後的訊號再進行編碼,即把量化的訊號電平轉換成二進位制碼組,就得到了離散的二進位制輸出資料序列x ( n ),n表示量化的時間序列,x ( n )的值就是n時刻量化後的幅值,以二進位制的形式表示和記錄。

3、數字音訊的技術指標有哪些?
       
 答:
        1)取樣頻率:
取樣頻率是指一秒鐘內取樣的次數。取樣頻率的選擇應該遵循奈奎斯特(Harry Nyquist)取樣理論(如果對某一模擬訊號進行取樣,則取樣後可還原的最高訊號頻率只有取樣頻率的一半,或者說只要取樣頻率高於輸入訊號最高頻率的兩倍,就能從取樣訊號系列重構原始訊號)。 

        根據該取樣理論,CD鐳射唱盤取樣頻率為44kHz,可記錄的最高音訊為22kHz,這樣的音質與原始聲音相差無幾,也就是我們常說的超級高保真音質。通訊系統中數字電話的採用頻率通常為8kHz,與原4k頻寬聲音一致的。

        2)量化位數:
量化位是對模擬音訊訊號的幅度軸進行數字化,它決定了模擬訊號數字化以後的動態範圍。由於計算機按位元組運算,一般的量化位數為8位和16位。量化位越高,訊號的動態範圍越大,數字化後的音訊訊號就越可能接近原始訊號,但所需要的存貯空間也越大。 

    


        3)聲道數:
有單聲道和雙聲道之分。雙聲道又稱為立體聲,在硬體中要佔兩條線路,音質、音色好,但立體聲數字化後所佔空間比單聲道多一倍。

        4)編碼演算法:
編碼的作用其一是採用一定的格式來紀錄數字資料,其二是採用一定的演算法來壓縮數字資料以減少存貯空間和提高傳輸效率。壓縮演算法包括有失真壓縮和無失真壓縮;有失真壓縮指解壓後資料不能完全復原,要丟失一部分資訊。壓縮編碼的基本指標之一就是壓縮比,它通常小於1。壓縮越多,資訊丟失越多、訊號還原後失真越大。根據不同的應用,應該選用不同的壓縮編碼演算法。 
        

        5)資料率及資料檔案格式:資料率為每秒bit數,它與資訊實時傳輸有直接關係,而其總資料量又與儲存空間有直接關係。

H.323

1、什麼是H.225協議?
      
       答:
H.225.0是一個框架協議,遵循H.323V2標準,包含了RAS和Q.931兩部分,描述了為在分組網路上的H.323裝置之間傳送音訊、視訊、資料和控制資訊而進行關聯、編碼及分組的方法。H.225.0負責協議和訊息格式的描述。

        H.225.0把RTP/RTCP用於所有下層分組網路媒體流的分組和同步,H.225.0假定了一個初始信令是建立在非RTP傳輸地址之上的呼叫模型,並把此呼叫模型用於呼叫建立和能力協商(見H.323和H.245),這之後將建立一個或多個RTP/RTCP連線。 H.225.0包含RTP/RTCP的詳細使用方法。 

2、什麼是 H.245協議?
      
      答:
用於控制H.323實體的操作的H.245協議訊息通過H.245控制通道傳輸, H.245訊息分為四種類型:請求(Request)、響應(Response)、命令(Command)和指示(Indication)。請求訊息要求接收機有動作,包括立即響應;響應訊息響應一個請求;命令訊息要求規定的動作,但不要求響應;指示訊息只是通知的作用,不要求任何動作和響應,通常是指示終端的資訊狀態。
  
        H.245協議規定的主要控制過程有:主/從決定、終端能力交換、邏輯通道控制、多點會議控制&指示,迴路時延。

  • 主從決定:決定節點的主從關係。
  • 能力交換:協商出一個相容的媒體能力(音訊、視訊、資料、會議等)集合。
  • 邏輯通道控制:指示開始傳輸特定媒體流。
  • 多點會議控制&指示:會場列表、主席控制、媒體指示等。
  • 迴路時延:傳送端到接收端的往返時延,也可用於檢測遠端是否異常。

        GK直接呼叫流程(包括H245部分): 

3、什麼是 H.323協議?

      答:
H.323協議描述了在不提供QoS的基於包交換的網路(PBN,Packet Based Networks)上提供多媒體通訊服務(包括實時的音訊、資料通訊等)的協議和裝置。H.323協議定義了四種元件:終端、閘道器、網守和多點控制單元。H.323協議是視訊通訊所基於的主要協議之一。H.323協議實際上是一個框架,它包含了相關的一系列協議,如圖1所示。 
    

        在H.323協議框架中,涉及到視訊會議系統相關訊息的的協議族主要包括:

  • (1)H.225.0 ANNEX H:H.225.0 Message Systax;
  • (2)H.245 ANNEX A:Message Syntax;

3、什麼是 Q.931信令?

      答:
Q.931呼叫信令是H.225.0中用於在兩個H.323端點之間建立呼叫連線的控制信令。當整個網路中有GK時,其初始接入訊息在主叫端點與GK之間利用GK的RAS通道傳輸地址進行交換。在初始接入訊息交換時,GK在ACF 訊息中指示了其它端點的呼叫信令傳輸地址。主叫埠根據此地址與其它埠建立呼叫。 

        呼叫信令主要包括:

  • Setup:向另一個實體發起呼叫
  • Alerting:被叫震鈴
  • Connect:被叫應答
  • ReleaseComplete:斷開呼叫

        其過程示意圖如下:


        根據圖中所示的情況中,其呼叫過程如下:

  1. 端點1(主叫端點)發起與關守的ARQ(1)/ACF(2) 交換。
  2. 關守在ACF中返回端點2的呼叫信令通道傳輸地址。
  3. 端點1隨後向使用該傳輸地址的端點2傳送Setup(3)訊息。
  4. 如果端點2希望接收此呼叫,它發起與關守的ARQ(5)/ACF(6) 交換。節點2有可能收到ARJ (6) ,這時端點2向端點1傳送Release Complete訊息。