音視訊中GOP、 PTS 和 DTS
視訊
視訊的播放過程可以簡單理解為一幀一幀的畫面按照時間順序呈現出來的過程,就像在一個本子的每一頁畫上畫,然後快速翻動的感覺。
但是在實際應用中,並不是每一幀都是完整的畫面,因為如果每一幀畫面都是完整的圖片,那麼一個視訊的體積就會很大,這樣對於網路傳輸或者視訊資料儲存來說成本太高,所以通常會對視訊流中的一部分畫面進行壓縮(編碼)處理。由於壓縮處理的方式不同,視訊中的畫面幀就分為了不同的類別,其中包括:I 幀、P 幀、B 幀。
I、P、B 幀
I 幀、P 幀、B 幀的區別在於:
- I 幀(Intra coded frames):I 幀影象採用幀內編碼方式,即只利用了單幀影象內的空間相關性,而沒有利用時間相關性。I 幀使用幀內壓縮,不使用運動補償,由於 I 幀不依賴其它幀,所以是隨機存取的入點,同時是解碼的基準幀。I 幀主要用於接收機的初始化和通道的獲取,以及節目的切換和插入,I 幀影象的壓縮倍數相對較低。I 幀影象是週期性出現在影象序列中的,出現頻率可由編碼器選擇。
- P 幀(Predicted frames):P 幀和 B 幀影象採用幀間編碼方式,即同時利用了空間和時間上的相關性。P 幀影象只採用前向時間預測,可以提高壓縮效率和影象質量。P 幀影象中可以包含幀內編碼的部分,即 P 幀中的每一個巨集塊可以是前向預測,也可以是幀內編碼。
- B 幀(Bi-directional predicted frames):B 幀影象採用雙向時間預測,可以大大提高壓縮倍數。值得注意的是,由於 B 幀影象採用了未來幀作為參考,因此 MPEG-2 編碼碼流中影象幀的傳輸順序和顯示順序是不同的。
也就是說,一個 I 幀可以不依賴其他幀就解碼出一幅完整的影象,而 P 幀、B 幀不行。P 幀需要依賴視訊流中排在它前面的幀才能解碼出影象。B 幀則需要依賴視訊流中排在它前面或後面的幀才能解碼出影象。
這就帶來一個問題:在視訊流中,先到來的 B 幀無法立即解碼,需要等待它依賴的後面的 I、P 幀先解碼完成,這樣一來播放時間與解碼時間不一致了,順序打亂了,那這些幀該如何播放呢?這時就需要我們來了解另外兩個概念:DTS 和 PTS。
另外補充一個基於I 幀、P 幀、B 幀上很重要的概念:
GOP
GOP即Group of picture(影象組),指兩個I幀之間的距離,Reference(參考週期)指兩個P幀之間的距離。一個I幀所佔用的位元組數大於一個P幀,一個P幀所佔用的位元組數大於一個B幀。所以在位元速率不變的前提下,GOP值越大,P、B幀的數量會越多,平均每個I、P、B幀所佔用的位元組數就越多,也就更容易獲取較好的影象質量;Reference越大,B幀的數量越多,同理也更容易獲得較好的影象質量。
需要說明的是,通過提高GOP值來提高影象質量是有限度的,在遇到場景切換的情況時,H.264編碼器會自動強制插入一個I幀,此時實際的GOP值被縮短了。另一方面,在一個GOP中,P、B幀是由I幀預測得到的,當I幀的影象質量比較差時,會影響到一個GOP中後續P、B幀的影象質量,直到下一個GOP開始才有可能得以恢復,所以GOP值也不宜設定過大。
同時,由於P、B幀的複雜度大於I幀,所以過多的P、B幀會影響編碼效率,使編碼效率降低。另外,過長的GOP還會影響Seek操作的響應速度,由於P、B幀是由前面的I或P幀預測得到的,所以Seek操作需要直接定位,解碼某一個P或B幀時,需要先解碼得到本GOP內的I幀及之前的N個預測幀才可以,GOP值越長,需要解碼的預測幀就越多,seek響應的時間也越長。
DTS、PTS 的概念
DTS、PTS 的概念如下所述:
- DTS(Decoding Time Stamp):即解碼時間戳,這個時間戳的意義在於告訴播放器該在什麼時候解碼這一幀的資料。
- PTS(Presentation Time Stamp):即顯示時間戳,這個時間戳用來告訴播放器該在什麼時候顯示這一幀的資料。
需要注意的是:雖然 DTS、PTS 是用於指導播放端的行為,但它們是在編碼的時候由編碼器生成的。
當視訊流中沒有 B 幀時,通常 DTS 和 PTS 的順序是一致的。但如果有 B 幀時,就回到了我們前面說的問題:解碼順序和播放順序不一致了。
比如一個視訊中,幀的顯示順序是:I B B P,現在我們需要在解碼 B 幀時知道 P 幀中資訊,因此這幾幀在視訊流中的順序可能是:I P B B,這時候就體現出每幀都有 DTS 和 PTS 的作用了。DTS 告訴我們該按什麼順序解碼這幾幀影象,PTS 告訴我們該按什麼順序顯示這幾幀影象。順序大概如下:
PTS: 1 4 2 3
DTS: 1 2 3 4
Stream: I P B B
音視訊的同步
上面說了視訊幀、DTS、PTS 相關的概念。我們都知道在一個媒體流中,除了視訊以外,通常還包括音訊。音訊的播放,也有 DTS、PTS 的概念,但是音訊沒有類似視訊中 B 幀,不需要雙向預測,所以音訊幀的 DTS、PTS 順序是一致的。
音訊視訊混合在一起播放,就呈現了我們常常看到的廣義的視訊。在音視訊一起播放的時候,我們通常需要面臨一個問題:怎麼去同步它們,以免出現畫不對聲的情況。
要實現音視訊同步,通常需要選擇一個參考時鐘,參考時鐘上的時間是線性遞增的,編碼音視訊流時依據參考時鐘上的時間給每幀資料打上時間戳。在播放時,讀取資料幀上的時間戳,同時參考當前參考時鐘上的時間來安排播放。這裡的說的時間戳就是我們前面說的 PTS。實踐中,我們可以選擇:同步視訊到音訊、同步音訊到視訊、同步音訊和視訊到外部時鐘。