1. 程式人生 > 實用技巧 >SDL開發筆記(二):音訊基礎介紹、使用SDL播放音訊

SDL開發筆記(二):音訊基礎介紹、使用SDL播放音訊

若該文為原創文章,未經允許不得轉載
原博主部落格地址:https://blog.csdn.net/qq21497936
原博主部落格導航:https://blog.csdn.net/qq21497936/article/details/102478062
本文章部落格地址:https://blog.csdn.net/qq21497936/article/details/108596396
紅胖子(紅模仿)的博文大全:開發技術集合(包含Qt實用技術、樹莓派、三維、OpenCV、OpenGL、ffmpeg、OSG、微控制器、軟硬結合等等)持續更新中…(點選傳送門)

Qt開發專欄:三方庫開發技術(點選傳送門)

上一篇:《

SDL開發筆記(一):SDL介紹、編譯使用以及工程模板
下一篇:敬請期待

前言

  對於Qt應用來說,為了更大的跨平臺通用性,使用SDL播放音訊,同時也能做更多的擴充操作。

聲波

  聲音是通過空氣傳播的一種連續的波,簡稱聲波。聲音的強弱體現在聲波壓力的大小上,音調的音調體現在聲音的頻率上。
  聲音訊號由兩個基本引數是頻率和復讀。訊號的頻率指的是訊號每秒變化的次數,用Hz表示。
頻率範圍為20Hz20Khz的訊號成為音訊訊號。該範圍內的音訊聲音幅度在0120dB之間,可被人感知到。
聲音轉換為數字訊號,則成為音訊訊號。

音訊訊號

  音訊訊號(acoustic signals)是帶有語音、音樂和音效的有規律的聲波的頻率、幅度變化資訊載體。根據聲波的特徵,可把音訊資訊分類為規則音訊和不規則聲音。其中規則音訊又可以分為語音、音樂和音效。規則音訊是一種連續變化的模擬訊號,可用一條連續的曲線來表示,稱為聲波。
  聲音的三個要素是音調、音強和音色。聲波或正弦波有三個重要引數:頻率 ω0、幅度An和相位ψn ,這也就決定了音訊訊號的特徵。
  對音訊訊號進行取樣,模擬訊號數字化後,就是數字音訊訊號了。

數字音訊訊號

  數字音訊計算機資料的儲存是以0、1的形式存取的,那麼數字音訊就是首先將音訊檔案轉化,接著再將這些電平訊號轉化成二進位制資料儲存,播放的時候就把這些資料轉換為模擬的電平訊號再送到喇叭播出,數字聲音和一般磁帶、廣播、電視中的聲音就儲存播放方式而言有著本質區別。相比而言,它具有儲存方便、儲存成本低廉、儲存和傳輸的過程中沒有聲音的失真、編輯和處理非常方便等特點。

  數字音訊訊號,就是我們最終處理的音訊資料。
  音訊數字訊號訊號具備幾個特徵:

量化級

  簡單地說就是描述聲音波形的資料是多少位的二進位制資料,通常用bit做單位,如16bit、24bit。16bit量化級記錄聲音的資料是用16位的二進位制數,因此,量化級也是數字聲音質量的重要指標。我們形容數字聲音的質量,通常就描述為24bit(量化級)、48KHz取樣,比如標準CD音樂的質量就是16bit、44.1KHz取樣。

聲道

  可以簡單的理解為通過一個振膜取樣到的音訊資料就是一個聲道,兩個振膜就是兩個聲道,以此類推。振膜一般有大、中、小三種尺寸,尺寸越大,對聲波越敏感,成本也越高。一個麥克風裡面有的有一個振膜,有的有兩個振膜。一個振膜的麥克風進行的是Mono單聲道錄音,兩個振膜的麥克風進行的是Stereo雙聲道立體聲錄音。五聲道環繞立體聲錄音就是麥克風1錄取東北方向的聲音,麥克風2錄取西北方向的聲音,麥克風3錄取西南方向的聲音,麥克風4錄取東南方向的聲音,麥克風5錄取正前方的聲音。另外還有四聲道環繞立體聲錄音和七聲道環繞立體聲錄音。

取樣率

  簡單地說就是通過波形取樣的方法記錄1秒鐘長度的聲音,需要多少個數據。44KHz取樣率的聲音就是要花費44000個數據來描述1秒鐘的聲音波形。原則上取樣率越高,聲音的質量越好。

位元率

一種數字音樂壓縮效率的參考性指標,表示記錄音訊資料每秒鐘所需要的平均位元值(位元是電腦中最小的資料單位,指一個0或者1的數),通常我們使用Kbps(通俗地講就是每秒鐘1024位元)作為單位。CD中的數字音樂位元率為1411.2Kbps(也就是記錄1秒鐘的CD音樂,需要1411.2×1024位元的資料),近乎於CD音質的MP3數字音樂需要的位元率大約是112Kbps~128Kbps。

壓縮率

  通常指音樂檔案壓縮前和壓縮後大小的比值,用來簡單描述數字聲音的壓縮效率。

SDL音訊播放流程解析

  基本流程如下:

步驟一:初始化子系統

  初始化音訊系統,其他多餘的系統不用初始化。

步驟二:根據音訊資訊開啟音訊裝置

  填充好SDL_AudioSpec音訊資訊,開啟音訊裝置,此時會返回最接近的音訊裝置,若沒有接近的則第二個引數返回0,此時我們直接第二個引數如0,無需返回。

步驟三:開始播放

  使用SDL_PauseAudio(0)進行播放。

步驟四:迴圈補充資料

  根據緩衝區資料長度和檔案剩餘的資料長度進行補充,若緩衝區資料沒了,就補充一次,使用SDL_Delay進行1ms的延遲,用當前快取區剩餘未播放的長度大於0結合前面的延遲進行等待。

步驟四(附加):回撥函式

  開始播放後,會有音訊其他子執行緒來呼叫回撥函式,進行音訊資料的補充,經過測試每次補充4096個位元組。

步驟五:關閉音訊設別

步驟六:退出SDL系統

SDL播放音訊相關變數

struct SDL_AudioSpec

  SDL_AudioSpec是包含音訊輸出格式的結構體,同時它也包含當音訊裝置需要更多資料時呼叫的回撥函式,此結構體是關鍵。

typedef struct SDL_AudioSpec
{
    int freq;                   // DSP頻率—每秒取樣數
    SDL_AudioFormat format;     // 音訊資料格式
    Uint8 channels;             // 通道數1-單聲道,2-立體聲
    Uint8 silence;              // 音訊緩衝靜音值(計算)
    Uint16 samples;             // 基本是512、1024設定不合適可能會導致卡頓’
    Uint16 padding;             // 對於某些編譯環境是必需的
    Uint32 size;                // 音訊緩衝區大小(位元組)(計算)
    SDL_AudioCallback callback; // 為音訊裝置提供資料回撥(空值使用SDL 自身預先定義的SDL_QueueAudio ()回撥函式)
    void *userdata;             // 傳遞給回撥的Userdata(對於空回撥忽略)
} SDL_AudioSpec;

  舉例:播放pcm音訊“匆匆那年-44100-16位-雙通道.pcm”

// 音訊結構體設定
SDL_AudioSpec sdlAudioSpec;
sdlAudioSpec.freq = 44100;
sdlAudioSpec.format = AUDIO_S16SYS;
sdlAudioSpec.channels = 1;
sdlAudioSpec.silence = 0;
sdlAudioSpec.samples = 1024;
sdlAudioSpec.callback = callBack_fillAudioData;
sdlAudioSpec.userdata = 0;

SDL播放音訊相關原型

SDL_Init()

int SDLCALL SDL_Init(Uint32 flags);

  使用此函式初始化SDL庫,必須在使用大多數其他SDL函式之前呼叫它,初始化的時候儘量做到“夠用就好”,而不要用SDL_INIT_EVERYTHING。會出現一些不可預知的問題。

  • 引數一:輸入初始化的裝置

SDL_OpenAudio()

int SDL_OpenAudio(SDL_AudioSpec * desired,
                  SDL_AudioSpec * obtained);

  此函式使用所需引數開啟音訊裝置,然後如果成功,則返回0,將實際硬體引數放入已獲得指向的結構。如果獲得的為空,則音訊傳遞給回撥函式的資料將被保證在請求的格式,並將自動轉換為硬體音訊格式(如有必要)。如果失敗,此函式返回-1,則無法開啟音訊裝置,或無法設定音訊執行緒。

  • 引數一:輸入需要開啟的音訊裝置引數;
  • 引數二:返回開啟成功的音訊裝置引數;

SDL_PauseAudio()

extern DECLSPEC void SDLCALL SDL_PauseAudio(int pause_on);

  暫停音訊功能。函式暫停和取消暫停音訊回撥處理。
  開啟音訊後,應使用引數0呼叫它們開始播放聲音的裝置。這樣就可以在開啟音訊裝置後安全地初始化回撥函式的資料。
  暫停期間,靜音將寫入音訊裝置。

SDL_MixAudio:混音播放函式

void SDL_MixAudio(Uint8 * dst,
                 const Uint8 * src,
                 Uint32 len,
                 int volume);

  這需要播放音訊格式和混音的兩個音訊緩衝區它們執行加法、音量調節和溢位剪輯。音量的範圍從0到128,應設定為SDL_MIX_MAXVOLUME全音訊音量。注意這不會改變硬體的音量。
這是為了方便起見,可以混合音訊資料。

  • 引數一:目標資料,這個是回撥函式裡面的stream指標指向的,直接使用回撥的stream指標即可。
  • 引數二:音訊資料,這個是將需要播放的音訊資料混到stream裡面去,那麼這裡就是我們需要填充的播放的資料。
  • 引數三:音訊資料的長度,這個是我們填充過去的長度。
  • 引數四:音量,0~128範圍,SAL_MIX_MAXVOLUME為128,設定的是軟音量,不是硬體的音響。

SDL_Delay()

void SDL_Delay(Uint32 ms);

  在返回之前等待指定的毫秒數。

SDL_Quit()

void SDLCALL SDL_Quit(void);

  此函式用於清除所有初始化的子系統。在所有退出條件後呼叫它。

Demo原始碼

void SDLManager::testPlayPCM()
{
    int ret = 0;
    // 音訊結構體
    SDL_AudioSpec sdlAudioSpec;
//    sdlAudioSpec.freq = 44100;
    sdlAudioSpec.freq = 22050;
//    sdlAudioSpec.format = AUDIO_U8; // x
//    sdlAudioSpec.format = AUDIO_S8; // x
//    sdlAudioSpec.format = AUDIO_U16LSB; // x
//    sdlAudioSpec.format = AUDIO_S16LSB; // √
//    sdlAudioSpec.format = AUDIO_U16MSB; // x
//    sdlAudioSpec.format = AUDIO_U16LSB; // x
//    sdlAudioSpec.format = AUDIO_S16MSB; // x
//    sdlAudioSpec.format = AUDIO_U16; // x
    sdlAudioSpec.format = AUDIO_S16; // √
//    sdlAudioSpec.format = AUDIO_S16SYS; // x
//    sdlAudioSpec.format = AUDIO_S32SYS; // x
//    sdlAudioSpec.format = AUDIO_F32SYS; // x
//    sdlAudioSpec.format = AUDIO_F32MSB; // x
    sdlAudioSpec.channels = 1;
    sdlAudioSpec.silence = 0;
    sdlAudioSpec.samples = 1024;    // 導致錯誤512~1024之間
    sdlAudioSpec.callback = callBack_fillAudioData;
    sdlAudioSpec.userdata = 0;

    QString fileName;

#if 0
    fileName = "testPCM/王妃-22050-16位-單通道.pcm";
    sdlAudioSpec.freq = 22050;
    sdlAudioSpec.channels = 1;
    sdlAudioSpec.format = AUDIO_S16;
#endif
#if 1
    fileName = "testPCM/匆匆那年-44100-16位-雙通道.pcm";
    sdlAudioSpec.freq = 44100;
    sdlAudioSpec.channels = 2;
    sdlAudioSpec.format = AUDIO_S16;
#endif
#if 0
    fileName = "testPCM/北京北京8k16bits單聲道.pcm";
    sdlAudioSpec.freq = 8000;
    sdlAudioSpec.channels = 1;
    sdlAudioSpec.format = AUDIO_S16;
#endif
#if 0
    fileName = "testPCM/冰雨片段48k16bit單聲道.pcm";
    sdlAudioSpec.freq = 48000;
    sdlAudioSpec.channels = 1;
    sdlAudioSpec.format = AUDIO_S16;
#endif
#if 0
    fileName = "testPCM/浪花一朵朵片段48k16bit單聲道.pcm";
    sdlAudioSpec.freq = 48000;
    sdlAudioSpec.channels = 1;
    sdlAudioSpec.format = AUDIO_S16;
#endif

    QFile file(fileName);
    if(!file.open(QIODevice::ReadOnly))
    {
        LOG << "Failed" << file.exists();
        return;
    }


    // 步驟一:初始化音訊子系統
    ret = SDL_Init(SDL_INIT_AUDIO);
    if(ret)
    {
        LOG << "Failed";
        return;
    }

    // 步驟二:開啟音訊裝置
    ret = SDL_OpenAudio(&sdlAudioSpec, 0);
    if(ret)
    {
        LOG << "Failed";
        return;
    }

    // 步驟三:開始播放
    SDL_PauseAudio(0);

#if 1
    // 步驟四:一次性讀取所有的資料
    QByteArray data = file.readAll();
    int pos = 0;
    _audioPos = (uint8_t *)data.data();
    _audioLen = data.size();
    pos += data.size();
    while(_audioLen > 0)
    {
        SDL_Delay(1);
    }
#else
    // 步驟四:一次性讀取4096
    int readSize = 4096;
    while(true)
    {
        _audioPos = (uint8_t *)file.read(readSize).data();
        _audioLen = readSize;
        while(_audioLen > 0)
        {
            SDL_Delay(1);
        }
    }
#endif
    // 步驟:播放完畢
    SDL_CloseAudio();

    // 步驟:釋放SDL
    SDL_Quit();


    if(file.isOpen())
    {
        file.close();
        return;
    }
}

void SDLManager::callBack_fillAudioData(void *userdata, uint8_t *stream, int len)
{
    SDL_memset(stream, 0, len);
    if(_audioLen == 0)
    {
        return;
    }
    len = (len > _audioLen ? _audioLen : len);

    SDL_MixAudio(stream, _audioPos, len, SDL_MIX_MAXVOLUME);

    _audioPos += len;
    _audioLen -= len;

    // 每次載入4096
    LOG << len;
}

工程模板:對應版本號v1.1.0

  對應版本號v1.1.0:播放裸PCM資料。

上一篇:《SDL開發筆記(一):SDL介紹、編譯使用以及工程模板
下一篇:敬請期待

原博主部落格地址:https://blog.csdn.net/qq21497936
原博主部落格導航:https://blog.csdn.net/qq21497936/article/details/102478062
本文章部落格地址:https://blog.csdn.net/qq21497936/article/details/108596396