語音信號處理1---基本概念
聲域:聲音太低、頻率過高或過低我們都無法聽到,人耳能夠聽到的聲音頻率和強度的範圍稱之為聲域。
心理聲學:人們對聲音的主觀感受,典型的例子:噪音刺耳、歌聲悅耳。主要有響度、音高、音色、掩蓋和定位等特征。
音長:振動持續的時間長短決定聲音持續長久。
掩蓋效應(雞尾酒效應):在多種音源的情況下,頻率接近的強信號會提高弱信號的聽閥,兩者響度差大到一定層度,弱信號就會給掩蓋掉,即人耳就很難聽到弱信號存在。
即使掩蔽信號(強)消失後,但仍然有500ms~2000ms後向隱蔽作用。
弱信號出現50ms~200ms後,即出現強信號,依然會有前向掩蔽作用,因為人耳還沒有來得及對弱信號作出反應。
酒會效應:人可以從本底噪聲環境中,聽到某些頻率的聲音,聽覺系統具有濾波效果。
純音:單一頻率的聲音;
復音:具有諧波的聲音;
白噪聲:在所有頻率點上,具有相同能量密度的隨機噪聲;在較寬的頻率範圍內,各等帶寬的頻帶所含的噪聲能量相等。
包絡:每個周期的波峰之間連線,體現聲強的瞬時特性。
聲音三要素:振幅(響度)、頻率(音高)、相位(音色)
1、響度
- 聲壓:聲場中,由於聲波的擾動,某一時刻某一點上的實際壓力與該點上平均壓力的差值;1bar 巴= 100KPa帕
有效聲壓:一定時間間隔內,將瞬時聲壓對時間求均方根
T聲音的長度 N采樣點數 x采樣點
聲壓級
pe有效聲壓 pref參考聲壓,一般為20uPa=2*10-5Pa
聲壓在原來基礎上增加10倍,聲壓級增加20dB
聲壓在原來基礎上增加2倍,聲壓級則增加6dB
聲強:聲波在單位時間內,作用在傳播方向垂直單位面積上的能量。
人耳的最大聲強值/最小聲強值達到1012倍
聲強級: LI= 10lg(I/I0) dB 參考聲強I0== 10 -12W/m2
響度:人對聲音強度的主觀感受。定義1KHz 40dB的純音為1Sone宋、
響度級:待測聲音和1KHz的純音做比較,調整純音聲壓級以達到待測聲音的同樣響度,此時1KHz純音的聲壓級就成為待測音的響度級。單位:方
例如:1KHz純音的60dB聲壓級(相對20uPa)的響度,和揚聲器響度一樣,我們稱揚聲器響度為60方。
1KHz 純音,其聲強達到10-16W/cm2為0dB聲強級;在0dB聲強級下,人耳剛好能聽到,定義為零方;
- 聽閥~頻率曲線(等響度曲線)
- 人耳聽力範圍:20Hz ~ 20KHz -5dB~130dB
- 從頻率角度看:
人耳對3~5KHz最為敏感,幅度很小的信號都能聽得到。
小於800Hz的低頻區 && 大於5KHz的高頻區,靈敏度會下降很多。
- 從響度級看:
響度級小,隨頻率變化明顯,高頻區、低頻區靈敏度變化敏感,低頻區更為激烈。
更要重視低頻音量, 200Hz~3KHz以60、70dB為宜;
頻帶較寬的音樂,以80~90dB為最佳;
- 不同頻率,相同響度,其強度也不一定一樣,等響度曲線就是把不同頻率和不同強度的純音和1kHz的純音做等響度的配對
Lp聲壓級、 f頻率、 LN響度級、 Lu為1KHz 幅值、 α f響度感知指數
根據頻率查參數表可以得到:α f 、Lu、Tf
2、音高(頻率)
人主觀感覺來評價聲音音調的高低,客觀上取決於聲波的基頻,頻高則調高。主觀單位美mel,客觀單位赫茲Hz
-
- 音高擬合 Tmel = 2595lg(1+f/700)
- 規定40dB聲強下,1kHz純音的音高為1000mel
- 音高測量以40dB聲強,1kHz純音為基準。
- 人耳對響度的感覺是從聞閥到痛閥的範圍,以1kHz純音為測量基準。
- 音高和頻率之間不是線性變化的,還受到聲強、波形的影響;兩個40dB的純音都增加1個倍頻程,則人耳感受音高變化是相同的,即音高變化和兩個頻率相對變化對數成正比。1個倍頻程==一個9度音
3、音色
基音(基頻產生最為清晰的聲音)+ 泛音(各次諧波產生微弱振動音);同時跟材料材質、結構有關。
音質:指聲音三要素。
語音信號數字化處理
模擬語音信號 —> 帶通濾波器 ---> AGC自動增益控制 ---> A/D模數轉換 ---> 脈沖信號編碼PCM ---> 存儲到硬盤
帶通濾波目標:
a>抑制輸入信號各頻域分量中,超出fs/2的所有分量 fs為采用頻率
b>防止50Hz電源幹擾
20lgA(ω)=-3dB,解得A(ω)=10^-0.15=0.707945784≈1/√2
采樣頻率: 定義了每秒從連續信號中提取並組成離散信號的采樣個數,它用赫茲(Hz)來表示。采樣頻率的倒數是采樣周期或者叫作采樣時間,它是采樣之間的時間間隔。通俗的講采樣頻率是指計算機每秒鐘采集多少個信號樣本。
采樣率:8000HZ
采樣精度:16bit 振幅劃分成 65536 個等級,2的16次方
聲道數:2個
一個采樣點的數據大小:采樣精度/8*聲道數(即16/8*2=4byte)
一個采樣點的數據分布: 左低1字節+左高1字節+右低1字節+右高1字節(1字節*4)
一個采樣點的數據值:以樣本精度進行讀取,多個通道相加(即16bit讀取L聲道值+16bit讀取R聲道值),讀取時註意機器的大小端區別。
1s的數據大小:采樣率*一個采樣點的數據大小(即8000*4=32000byte)
奈奎斯特頻率:(Nyquist frequency)是離散信號系統采樣頻率的一半。
奈奎斯特-香農采樣定理:只有采樣頻率高於原始信號最高頻率的兩倍時,才能把數字信號表示的信號還原成為原來信號。
只要離散系統的奈奎斯特頻率高於采樣信號的最高頻率或帶寬,就可以避免混疊現象。從理論上說,即使奈奎斯特頻率恰好大於信號帶寬,也足以通過信號的采樣重建原信號。但是,重建信號的過程需要以一個低通濾波器或者帶通濾波器將在奈奎斯特頻率之上的高頻分量全部濾除,同時還要保證原信號中頻率在奈奎斯特頻率以下的分量不發生畸變,而這是不可能實現的。在實際應用中,為了保證抗混疊濾波器的性能,接近奈奎斯特頻率的分量在采樣和信號重建的過程中可能會發生畸變。因此信號帶寬通常會略小於奈奎斯特頻率;
奈奎斯特頻率必須嚴格大於信號包含的最高頻率
語音信號表征特性:
a)時域
b)頻域 語音信號具有短時平穩性,幀長一般取10~30ms
c) 語譜圖:三維,橫軸為時間,縱軸為頻率,能量用點的灰度表示;
時域分析不能直觀看出頻率特性;頻域分析也看不出信號隨時間的變化;
一幀(一般為1024個采樣點)信號,可認為頻譜不變,是短時譜,只反應靜態的頻率特性;
吉布斯效應:吉將具有不連續點的周期函數(如矩形脈沖)進行傅立葉級數展開後,選取有限項進行合成。當選取的項數越多,在所合成的波形中出現的峰起越靠近原信號的不連續點。當選取的項數很大時,該峰起值趨於一個常數,大約等於總跳變值的9%。
振鈴現象:信號的反射可能會引起振鈴現象
聲波在兩種媒介的分界面會產生折射、反射、透射,聲波相幹性等聲波性質,放到後續闡述。
語音信號處理1---基本概念