1. 程式人生 > 其它 >【第8篇】語音採集

【第8篇】語音採集

語音採集是以麥克風拾音為開端,經過模擬訊號數字化,最後生成原始音訊檔案的整個過程。

2.2.1 語音採集流程
語音採集流程主要包括如下3個步驟:
(1)麥克風拾音
(2)模擬訊號數字化
(3)原始音訊檔案生成

語音採集流程圖如下:

圖2-2 原始音訊檔案生成流程

1. 麥克風拾音
人輸入語音後,產品通過麥克風拾音生成原始模擬訊號。
什麼是原始模擬訊號?一般我們把在時間(或空間)和幅度上都是連續的訊號稱為模擬訊號。在時間上“連續”是指在任何一個指定的時間範圍裡聲音訊號都有無窮多個幅值。在幅度上“連續”是指幅度的數值為實數。

2. 模擬訊號數字化
將麥克風拾音獲取的原始模擬訊號轉化為數字語音訊號的過程,就是模擬訊號數字化,其中主要包括以下3大步驟:
(1)取樣
取樣是指將時間軸上連續的訊號每隔一定的時間間隔抽取出一個訊號的幅度樣本,把連續的模擬量用一個個離散的點表示出來,使其成為時間上離散的脈衝序列。
每秒鐘取樣的次數稱為取樣頻率,用f表示。樣本之間的時間間隔稱為取樣週期,用T表示,T=1/f。例如:CD的取樣頻率為44.1kHz,表示每秒鐘取樣44100次。
常用的取樣頻率有8kHz、11.025Hz、22.05kHz、15kHz、44.1kHz、48kHz等。
在對模擬音訊進行取樣時,取樣頻率越高,音質越有保證。若取樣頻率不夠高,聲音就會產生低頻失真。那麼怎樣才能避免低頻失真呢?著名的取樣定理(Nyquist 定理)中給出有明確的答案:要想不產生低頻失真,取樣頻率至少應為所要錄製的音訊的最高頻率的2 倍。例如,電話話音的訊號頻率約為3.4 kHz ,取樣頻率就應該≥6.8 kHz ,考慮到訊號的衰減等因素,一般取為8kHz。

(2)量化
取樣的離散音訊要轉化為計算機能夠表示的資料範圍,這個過程稱為量化。
量化的等級取決於量化精度,也就是用多少位二進位制數來表示一個音訊資料。量化精度越高,聲音的保真度越高。比如若一臺計算機能夠接收8位二進位制資料,則相當於能夠接受256個十進位制的數,即有256個電平數,用這些數來代表模擬訊號的電平,可以有256種,但是實際上取樣後的某一時刻訊號的電平不一定和256個電平某一個相等,此時只能用最接近的數字程式碼表示取樣訊號電平。
常用的取樣精度為8bit/s、12 bit/s、16bit/s、20bit/s、24bit/s等。

(3)編碼
取樣和量化後的訊號還不是數字訊號,需要把它轉換成數字編碼脈衝,這一過程稱為編碼。最簡單的編碼方式是二進位制編碼,即將已經量化的訊號幅值用二進位制數表示,計算機內採用的就是這種編碼方式。
模擬音訊經過取樣、量化和編碼後所形成的二進位制序列就是數字音訊訊號。

3. 原始音訊檔案生成
我們可以將數字音訊訊號以檔案的形式儲存在計算機的儲存裝置中,這樣的檔案通常稱之為數字音訊檔案,到此原始音訊檔案生成。原始錄音檔案是一個未壓縮的純波形檔案。在計算機應用中,能夠達到最高保真水平的就是PCM(Pulse Code Modulation)編碼,常見的WAV檔案中就有應用。WAV檔案裡儲存的除了一個檔案頭以外,就是聲音波形的一個個點了。

圖2-3是一個波形的示例。

圖2-3 聲音波形圖

總結
如果大家對人工智慧(AI)測試有興趣,歡迎大家加本人微信:wxid_ptea4d8gx4tx12;QQ群:775460627。