1. 程式人生 > >ffmpeg主要資料結構及其之間的關係

ffmpeg主要資料結構及其之間的關係

 AVCodecContext:這是一個描述編解碼器上下文的資料結構,包含了眾多編解碼器需要的引數資訊。

      如果是單純使用libavcodec,這部分資訊需要呼叫者進行初始化;如果是使用整個FFMPEG庫,這部分資訊在呼叫 av_open_input_file和av_find_stream_info的過程中根據檔案的頭資訊及媒體流內的頭部資訊完成初始化。其中幾個主要域的釋義如下:

    extradata/extradata_size: 這個buffer中存放了解碼器可能會用到的額外資訊,在av_read_frame中填充。一般來說,首先,某種具體格式的demuxer在讀取格式頭 資訊的時候會填充extradata,其次,如果demuxer沒有做這個事情,比如可能在頭部壓根兒就沒有相關的編解碼資訊,則相應的parser會繼 續從已經解複用出來的媒體流中繼續尋找。在沒有找到任何額外資訊的情況下,這個buffer指標為空。
    time_base:
    width/height:視訊的寬和高。
    sample_rate/channels:音訊的取樣率和通道數目。
    sample_fmt: 音訊的原始取樣格式。
    codec_name/codec_type/codec_id/codec_tag:編解碼器的資訊。

      AVStream
:該結構體描述一個媒體流。

      主要域的釋義如下,其中大部分域的值可以由av_open_input_file根據檔案頭的資訊確定,缺少的資訊需要通過呼叫av_find_stream_info讀幀及軟解碼進一步獲取:

    index/id:index對應流的索引,這個數字是自動生成的,根據index可以從AVFormatContext::streams表中索引到該流;而id則是流的標識,依賴於具體的容器格式。比如對於MPEG TS格式,id就是pid。
    time_base:流的時間基準,是一個實數,該流中媒體資料的pts和dts都將以這個時間基準為粒度。通常,使用av_rescale/av_rescale_q可以實現不同時間基準的轉換。
    start_time:流的起始時間,以流的時間基準為單位,通常是該流中第一個幀的pts。
    duration:流的總時間,以流的時間基準為單位。
    need_parsing:對該流parsing過程的控制域。
    nb_frames:流內的幀數目。
    r_frame_rate/framerate/avg_frame_rate:幀率相關。
    codec:指向該流對應的AVCodecContext結構,呼叫av_open_input_file時生成。
    parser:指向該流對應的AVCodecParserContext結構,呼叫av_find_stream_info時生成。 

     AVFormatContext
:這個結構體描述了一個媒體檔案或媒體流的構成和基本資訊。

      這是FFMpeg中最為基本的一個結構,是其他所有結構的根,是一個多媒體檔案或流的根本抽象。其中:

    nb_streams和streams所表示的AVStream結構指標陣列包含了所有內嵌媒體流的描述;
    iformat和oformat指向對應的demuxer和muxer指標;
    pb則指向一個控制底層資料讀寫的ByteIOContext結構。
    start_time和duration是從streams陣列的各個AVStream中推斷出的多媒體檔案的起始時間和長度,以微妙為單位。 

      通常,這個結構由av_open_input_file在內部建立並以預設值初始化部分成員。但是,如果呼叫者希望自己建立該結構,則需要顯式為該結構的一些成員置預設值——如果沒有預設值的話,會導致之後的動作產生異常。以下成員需要被關注:

    probesize
    mux_rate
    packet_size
    flags
    max_analyze_duration
    key
    max_index_size
    max_picture_buffer
    max_delay 

     AVPacket
:定義在avcodec.h中。FFMPEG使用AVPacket來暫存解複用之後、解碼之前的媒體資料(一個音/視訊幀、一個字幕包等)及附加資訊(解碼時間戳、顯示時間戳、時長等)。其中:

    dts表示解碼時間戳,pts表示顯示時間戳,它們的單位是所屬媒體流的時間基準。
    stream_index給出所屬媒體流的索引;
    data為資料緩衝區指標,size為長度;
    duration為資料的時長,也是以所屬媒體流的時間基準為單位;
    pos表示該資料在媒體流中的位元組偏移量;
    destruct為用於釋放資料緩衝區的函式指標;
    flags為標誌域,其中,最低為置1表示該資料是一個關鍵幀。 

        AVPacket 結構本身只是個容器,它使用data成員指向實際的資料緩衝區,這個緩衝區可以通過av_new_packet建立,可以通過av_dup_packet 拷貝,也可以由FFMPEG的API產生(如av_read_frame),使用之後需要通過呼叫av_free_packet釋放。 av_free_packet呼叫的是結構體本身的destruct函式,它的值有兩種情況:1)av_destruct_packet_nofree或 0;2)av_destruct_packet,其中,前者僅僅是將data和size的值清0而已,後者才會真正地釋放緩衝區。FFMPEG內部使用 AVPacket結構建立緩衝區裝載資料,同時提供destruct函式,如果FFMPEG打算自己維護緩衝區,則將destruct設為 av_destruct_packet_nofree,使用者呼叫av_free_packet清理緩衝區時並不能夠將其釋放;如果FFMPEG不會再使用 該緩衝區,則將destruct設為av_destruct_packet,表示它能夠被釋放。對於緩衝區不能夠被釋放的AVPackt,使用者在使用之前 最好呼叫av_dup_packet進行緩衝區的克隆,將其轉化為緩衝區能夠被釋放的AVPacket,以免對緩衝區的不當佔用造成異常錯誤。而 av_dup_packet會為destruct指標為av_destruct_packet_nofree的AVPacket新建一個緩衝區,然後將原 緩衝區的資料拷貝至新緩衝區,置data的值為新緩衝區的地址,同時設destruct指標為av_destruct_packet。

時間資訊

      時間資訊用於實現多媒體同步。同步的目的在於展示多媒體資訊時,能夠保持媒體物件之間固有的時間關係。同步有兩類,一類是流內同步,其主要任務是保證單個媒體流內的時間關係,以滿足感知 要求,如按照規定的幀率播放一段視訊;另一類是流間同步,主要任務是保證不同媒體流之間的時間關係,如音訊和視訊之間的關係(lipsync)。

       對於固定速率的媒體,如固定幀率的視訊或固定位元率的音訊,可以將時間資訊(幀率或位元率)置於檔案首部(header),如AVI的hdrl List、MP4的moov box,還有一種相對複雜的方案是將時間資訊嵌入媒體流的內部,如MPEG TS和Real video,這種方案可以處理變速率的媒體,亦可有效避免同步過程中的時間漂移。

FFMPEG會為每一個數據包打上時間標 籤,以更有效地支援上層應用的同步機制。時間標籤有兩種,一種是DTS,稱為解碼時間標籤,另一種是PTS,稱為顯示時間標籤。對於聲音來說 ,這兩個時間標籤是相同的,但對於某些視訊編碼格式,由於採用了雙向預測技術,會造成DTS和PTS的不一致。

時間資訊的獲取:

      通過呼叫av_find_stream_info,多媒體應用可以從AVFormatContext物件中拿到媒體檔案的時間資訊:主要是總時間長度和開始時間,此外還有與時間資訊相關的位元率和檔案大小。其中時間資訊的單位是AV_TIME_BASE:微秒。