1. 程式人生 > >Linux音訊驅動-聲音採集過程

Linux音訊驅動-聲音採集過程

現實中的聲音是一段連續的訊號, 現在大部分的聲音是以離散的數字訊號儲存下來,例如CD、MP3音訊格式。 在儲存這些資訊時,考慮到對聲音質量和儲存的效率, 需要對聲音的幾個重要的基本屬性進行研究。

對於人類而言,聲音是通過物體震動而產生的聲波,通過介質傳播而能夠被人耳感知到的波動現象。能夠被人耳朵感知到的波動頻率在20到20KHz之間, 高於這個範圍稱為“超聲波”,低於此範圍稱為“次聲波”。

一些動物感知波動的頻率:

    • 蝙蝠:1000~120000Hz
    • 海豚:2000~100000Hz
    • 貓:60~65000Hz
    • 狗:15~50000Hz
    • 人:20~20000Hz

聲波強度用分貝來表示, 它和聲波在單位時間內對垂直於傳播方向的單位面積產生的能量(聲強)的對數成正比。 波的振幅越大, 能量越大, 聲強也就越大。但這並不意味人能感覺的響度就越大!

聲波響度,一定強度的聲波作用於人耳所引起的辨別聲音的感覺成為響度。 響度是主觀的,它不僅取決於聲音的客觀物理強度, 還取決於聲音的頻率。 在強度相同時,1000Hz~4000Hz的聲音人耳聽起來最響。 在此範圍之外, 隨著頻率的升高或降低, 響度越來越弱。 當降至20Hz一下或者升高到20KHz人耳就很難聽到了。  

 音調是對聲波頻率的主觀反映,一般頻率越高音調越高。 聲波的強度對音調稍有影響, 當頻率一定時,聲隨著強增大,低頻音調顯得更低,高頻音調顯得更高。

聽閥表示聽力的好壞, 聽閥越高說明需要更高的聲強才能讓耳朵感受到聲音, 聽力越差, 反之聽力越好。辨別閥用來表示聽覺器官辨別聲音某種特性最小差異的能力

聲音的採集是在一段連續的訊號中, 採取離散的訊號, 採集密度用取樣率來表示。香濃取樣定理表明,取樣頻率必須大於被取樣訊號頻寬的兩倍。 如果訊號的頻寬是100Hz, 那麼為了避免混疊取樣率必須大於200Hz,否則不能從取樣訊號中回覆原始訊號。 如果取樣頻率遠遠高於2倍訊號頻寬,可以幫助避免混疊、改善解析度以及降低噪聲。 在數字領域中,經常採用的取樣率:

    • 8,000 Hz - 電話所用取樣率, 對於人的說話已經足夠
    • 11,025 Hz
    • 22,050 Hz - 無線電廣播所用取樣率
    • 32,000 Hz - miniDV 數碼視訊 camcorderDAT (LP mode)所用取樣率
    • 44,100 Hz - 音訊 CD, 也常用於 
      MPEG-1
       音訊(VCDSVCDMP3)所用取樣率
    • 47,250 Hz - Nippon Columbia (Denon)開發的世界上第一個商用 PCM 錄音機所用取樣率
    • 48,000 Hz - miniDV、數字電視DVDDAT、電影和專業音訊所用的數字聲音所用取樣率
    • 50,000 Hz - 二十世紀七十年代後期出現的 3M 和 Soundstream 開發的第一款商用數字錄音機所用取樣率
    • 50,400 Hz - 三菱 X-80 數字錄音機所用所用取樣率
    • 96,000 或者 192,000 Hz - DVD-Audio、一些 LPCM DVD 音軌、Blu-ray Disc(藍光碟)音軌、和 HD-DVD (高清晰度 DVD)音軌所用所用取樣率

如果取樣率越高,單位訊號的採集的樣本訊號就越多,訊號還原度也就越高。 從上面的不同的取樣率可以看到, 取樣率越高的訊號清晰度就越高,當然也要求更多的儲存空間。

除了採集率, 取樣位數也是一個重要的取樣指標, 它是對一個取樣精確度的表示。 它和取樣率共同影響訊號的採集的質量。 取樣位數是用來表示一個取樣訊號的長度。 對於人類而言,能接受聲音的頻率範圍是20Hz-20KHz, 所以取樣的頻率44.1KHz 以及16bit的取樣位數就可以有很好的保真能力(CD格式的取樣率和取樣位數)。因此我們可以計算出一張60分鐘的2聲道立體聲音樂CD的大小,3600*44100*(16*8)*2 bit ~= 604MB;  

位元率也用來表示但是時間播放連續數字媒體的位元數量, 單位bit/s. 它是有采樣率和取樣位數共同決定的指標, 例如上述CD的位元率是44100*16*2bit/s = 1.4Mbit/s

儲存音訊的格式有很多種:

非壓縮格式:如目前最流行的WAV格式, 經常用來儲存原始錄音資料。 

有失真壓縮格式:基於聲學心理學的模型,除去人耳很難或者根本聽不見的聲音, 例如一個很高的聲音後面跟著一個很低 的聲音。 MP3屬於這種。

無失真壓縮格式:壓縮時不產生質量或者資料的損失,解壓產生的資料和為解壓的資料完全相同。 要保證音樂的原始質量,就 應該選擇這種格式,APE, FLAC等等屬於這種。

多聲道格式: 容納2個聲道以上的格式微軟的WMA和蘋果的AAC, 這兩個格式是手版權限制的, 編碼器和解碼器需要授權才可以使用。