1. 程式人生 > >音訊採集引數說明

音訊採集引數說明

文章轉自:http://www.code06.com/other/aoshilang2249/92451.html

一、音訊

指人耳可以聽到的聲音訊率在20Hz~20kHz之間的聲波。如果在計算機加上相應的音訊卡就是我們經常說的音效卡,我們可以把所有的聲音錄製下來,聲音的聲學特性如音的高低等都可以用計算機硬碟檔案的方式儲存下來。反過來,我們也可以把儲存下來的音訊檔案用一定的音訊程式播放,還原以前錄下的聲音。二、取樣頻率指每秒鐘取得聲音樣本的次數。聲音其實是一種能量波,因此也有頻率和振幅的特徵,頻率對應於時間軸線,振幅對應於電平軸線。波是無限光滑的,絃線可以看成由無數點組成,由於儲存空間是相對有限的,數字編碼過程中,必須對絃線的點進行取樣。
取樣的過程就是抽取某點的頻率值,很顯然,在一秒中內抽取的點越多,獲取得頻率資訊更豐富,為了復原波形,取樣頻率越高,聲音的質量也就越好,聲音的還原也就越真實,但同時它佔的資源比較多。由於人耳的解析度很有限,太高的頻率並不能分辨出來。22050 的取樣頻率是常用的,44100已是CD音質,超過4800096000的取樣對人耳已經沒有意義。這和電影的每秒24幀圖片的道理差不多。如果是雙聲道(stereo),取樣就是雙份的,檔案也差不多要大一倍。根據奈奎斯特取樣理論,為了保證聲音不失真,取樣頻率應該在40kHz左右。這個定理怎麼得來,我們不需要知道,只需知道這個定理告訴我們,如果我們要精確的記錄一個訊號,我們的取樣頻率必須大於等於音訊訊號的最大頻率的兩倍,記住,是最大頻率。
在數字音訊領域,常用的取樣率有:        8000 Hz - 電話所用取樣率,對於人的說話已經足夠        11025 Hz - 電話所用取樣率        22050 Hz - 無線電廣播所用取樣率        32000 Hz - miniDV 數碼視訊 camcorderDAT (LP mode)所用取樣率        44100 Hz - 音訊 CD, 也常用於 MPEG-1 音訊(VCDSVCDMP3)所用取樣率        47250 Hz - 商用 PCM 錄音機所用取樣率        48000 Hz - miniDV、數字電視、DVDDAT、電影和專業音訊所用的數字聲音所用取樣率
        50000 Hz - 商用數字錄音機所用取樣率        96000 Hz或者 192000 Hz - DVD-Audio、一些 LPCM DVD 音軌、BD-ROM(藍光碟)音軌、和 HD-DVD (高清晰度 DVD)音軌所用所用取樣率二、取樣位數取樣位數也叫取樣大小或量化位數。它是用來衡量聲音波動變化的一個引數,也就是音效卡的解析度或可以理解為音效卡處理聲音的解析度。它的數值越大,解析度也就越高,錄製和回放的聲音就越真實。而音效卡的位是指音效卡在採集和播放聲音檔案時所使用數字聲音訊號的二進位制位數,音效卡的位客觀地反映了數字聲音訊號對輸入聲音訊號描述的準確程度。常見的音效卡主要有8位和16位兩種,如今市面上所有的主流產品都是16位及以上的音效卡。每個取樣資料記錄的是振幅, 取樣精度取決於取樣位數的大小:        1 位元組(也就是8bit) 只能記錄 256 個數, 也就是隻能將振幅劃分成 256 個等級;        2 位元組(也就是16bit) 可以細到 65536 個數, 這已是 CD 標準了;        4 位元組(也就是32bit) 能把振幅細分到 4294967296 個等級, 實在是沒必要了.三、通道數即聲音的通道的數目。常見的單聲道和立體聲(雙聲道),現在發展到了四聲環繞(四聲道)和5.1聲道。1.單身道單聲道是比較原始的聲音複製形式,早期的音效卡採用的比較普遍。單聲道的聲音只能使用一個揚聲器發聲,有的也處理成兩個揚聲器輸出同一個聲道的聲音,當通過兩個揚聲器回放單聲道資訊的時候,我們可以明顯感覺到聲音是從兩個音箱中間傳遞到我們耳朵裡的,無法判斷聲源的具體位置。2.立體聲

雙聲道就是有兩個聲音通道,其原理是人們聽到聲音時可以根據左耳和右耳對聲音相位差來判斷聲源的具體位置。聲音在錄製過程中被分配到兩個獨立的聲道,從而達到了很好的聲音定位效果。這種技術在音樂欣賞中顯得尤為有用,聽眾可以清晰地分辨出各種樂器來自的方向,從而使音樂更富想象力,更加接近於臨場感受。

雙聲目前最常用途與兩個,在卡拉OK中,一個是奏樂,一個是歌手的聲音;在VCD,一個是普通話配音,一個是粵語配音。

3.四聲環繞四聲道環繞規定了前左、前右,後左、後右四個發聲點,聽眾則被包圍在這中間。同時還建議增加一個低音音箱,以加強對低頻訊號的回放處理(這也就是如今4.1聲道音箱系統廣泛流行的原因)。就整體效果而言,四聲道系統可以為聽眾帶來來自多個不同方向的聲音環繞,可以獲得身臨各種不同環境的聽覺感受,給使用者以全新的體驗。如今四聲道技術已經廣泛融入於各類中高檔音效卡的設計中,成為未來發展的主流趨勢。4.5.1聲道        5.1聲道已廣泛運用於各類傳統影院和家庭影院中,一些比較知名的聲音錄製壓縮格式,譬如杜比AC-3Dolby Digital)、DTS等都是以5.1聲音系統為技術藍本的,其中“.1”聲道,則是一個專門設計的超低音聲道,這一聲道可以產生頻響範圍20120Hz的超低音。其實5.1聲音系統來源於4.1環繞,不同之處在於它增加了一箇中置單元。這個中置單元負責傳送低於80Hz的聲音訊號,在欣賞影片時有利於加強人聲,把對話集中在整個聲場的中部,以增加整體效果。目前很多線上音樂播放器,比如說QQ音樂,已經提供5.1聲道音樂試聽和下載。四、幀音訊的幀的概念沒有視訊幀那麼清晰,幾乎所有視訊編碼格式都可以簡單的認為一幀就是編碼後的一副影象。但音訊幀跟編碼格式相關,它是各個編碼標準自己實現的。因為如果以PCM(未經編碼的音訊資料)來說,它根本就不需要幀的概念,根據取樣率和取樣精度就可以播放了。比如取樣率為44.1kHZ,取樣精度為16位的雙音訊,你可以算出位元率是44100*16*2bps,每秒的音訊資料是固定的44100*16*2/8 位元組。        amr幀比較簡單,它規定每20ms的音訊是一幀,每一幀音訊都是獨立的,有可能採用不同的編碼演算法以及不同的編碼引數。        mp3幀較為複雜一點,包含了更多的資訊,比如取樣率,位元率,等各種引數。五、週期音訊裝置一次處理所需要的幀數,對於音訊裝置的資料訪問以及音訊資料的儲存,都是以此為單位。六、交錯模式數字音訊訊號儲存的方式。資料以連續幀的方式存放,即首先記錄幀1的左聲道樣本和右聲道樣本,再開始幀2的記錄。七、非交錯模式首先記錄的是一個週期內所有幀的左聲道樣本,再記錄所有右聲道樣本。八、位元率位元率也叫位元速率,指音樂每秒播放的資料量,單位用bit表示,也就是二進位制位。 bps就是位元率。b就是位元(bit),s就是秒(second),p就是每(per),一個位元組相當於8個二進位制位。也就是說128bps4分鐘的歌曲的檔案大小是這樣計算的(128/8)*4*60=3840kB=3.8MB1BByte=8bbit),一般mp3128位元率左右為益,也大概在3-4 BM左右的大小。在計算機應用中,能夠達到最高保真水平的就是PCM編碼,被廣泛用於素材儲存及音樂欣賞,CDDVD以及我們常見的 WAV檔案中均有應用。因此,PCM約定俗成了無損編碼,因為PCM代表了數字音訊中最佳的保真水準,並不意味著PCM就能夠確保訊號絕對保真,PCM也只能做到最大程度的無限接近。要算一個PCM音訊流的位元速率是一件很輕鬆的事情,取樣率值×取樣大小值×聲道數 bps。一個取樣率為44.1KHz,取樣大小為16bit,雙聲道的PCM編碼的WAV檔案,它的資料速率則為 44.1K×16×2 =1411.2Kbps。我們常見的Audio CD就採用了PCM編碼,一張光碟的容量只能容納72分鐘的音樂資訊。

雙聲道的PCM編碼的音訊訊號,1秒鐘需要176.4KB的空間,1分鐘則約為10.34M,這對大部分使用者是不可接受的,尤其是喜歡在電腦上聽音樂的朋友,要降低磁碟佔用,只有2種方法,降低取樣指標或者壓縮。降低取樣指標是不可取的,因此專家們研發了各種壓縮方案。最原始的有DPCMADPCM,其中最出名的為MP3。所以,採用了資料壓縮以後的位元速率遠小於原始碼。