音訊特徵提取及差異

阿新 • • 發佈：2019-01-19

MFCC特徵提取步驟：
預加重->STFT->mel濾波->DCT變換->倒譜提升
不同工具提取的特徵會有差別，這裡選用python中的librosa庫分析
預加重：
FIR一階高通濾波器，提升高頻分量，傳遞函式為

H (z) = 1 - a * z^{-} 1

係數a一般取接近1的數如0.97，對應的時域差分方程為

y (n) = x (n) - a * x (n - 1)

matlab畫出濾波器的響應曲線如下

freqz([1,-0.97],1)

STFT：
語音訊號具有短時平穩性，因此分析時一般通過分幀加窗做短時傅立葉變換

mel濾波：
mel定義了一組從線性頻率到mel頻率的對映，對應關係為：

m = 2595 l o g_{10} (1 + \frac{f}{700}) = 1127 l o g_{e} (1 + \frac{f}{700})

如在librosa庫中寫法為

2595.0 * np.log10(1.0 + frequencies / 700.0)

mel濾波器是一組分佈在mel刻度上的三角窗濾波器，matlab的voicebox中有可以直接得到mel濾波器的函式，寫法如下：

fs = 8000;
bank=melbankm(20,512,fs,300/fs,3700/fs,'w');
bank=full(bank);
bank=bank/max(bank(:));
figure,plot(bank(10,:))
figure,plot(bank')

以上程式得到一個 $20 * 257$ 的濾波器組，每一行代表一個頻域的三角濾波器，作圖plot(bank(10,:))如下

畫出所有三角濾波器figure,plot(bank’)如下

DCT變換：
一般使用的是type-Ⅲ型DCT，DCT變換公式如下

F (u) = C (u) * \sum_{x = 0}^{N - 1} f (x) * c o s (\frac{(2 x + 1) * u π}{2 N})

矩陣形式為

F = G * f

其中G就是我們需要計算的DCT係數。
這裡也說一下各個資料的大小，如我們希望最終每幀資料（幀長400、fft長度512）希望得到13個mfcc係數，而mel濾波器組個數為20，
則各個資料大小如下：
$x : 400 * 268$

x : 400 * 268

x f f t : 512 * 268

m e l c o e f f : 20 * 257

D C T : 13 * 20

最終得到的就是268幀每幀13個總共13*268個mfcc係數了

需要注意的是，在DCT係數計算中，有的地方直接取 $C (u) = \sqrt{\frac{2}{N}}$ ，而有的地方在 $u > 0$ 時不變，在 $u = 0$ 時取 $C (u) = \sqrt{\frac{1}{N}}$ ，即如下

關於這裡的區別可以檢視維基百科關於DCT的介紹：DCT
跟蹤librosa的程式碼可以啊看到librosa是使用第二種方式

    basis = np.empty((n_filters, n_input))
    basis[0, :] = 1.0 / np.sqrt(n_input)

    samples = np.arange(1, 2*n_input, 2) * np.pi / (2.0 * n_input)

    for i in range(1, n_filters):
        basis[i, :] = np.cos(i*samples) * np.sqrt(2.0/n_input)

librosa中提取mfcc很簡單，讀取音訊檔案後一行程式碼就可以完成，以下是mfcc函式內部

# -- Mel spectrogram and MFCCs -- #
def mfcc(y=None, sr=22050, S=None, n_mfcc=20, **kwargs):
    """Mel-frequency cepstral coefficients

    Parameters
    ----------
    y     : np.ndarray [shape=(n,)] or None
        audio time series

    sr    : number > 0 [scalar]
        sampling rate of `y`

    S     : np.ndarray [shape=(d, t)] or None
        log-power Mel spectrogram

    n_mfcc: int > 0 [scalar]
        number of MFCCs to return

    kwargs : additional keyword arguments
        Arguments to `melspectrogram`, if operating
        on time series input

    Returns
    -------
    M     : np.ndarray [shape=(n_mfcc, t)]
        MFCC sequence

    See Also
    --------
    melspectrogram

    Examples
    --------
    Generate mfccs from a time series

    >>> y, sr = librosa.load(librosa.util.example_audio_file())
    >>> librosa.feature.mfcc(y=y, sr=sr)
    array([[ -5.229e+02,  -4.944e+02, ...,  -5.229e+02,  -5.229e+02],
           [  7.105e-15,   3.787e+01, ...,  -7.105e-15,  -7.105e-15],
           ...,
           [  1.066e-14,  -7.500e+00, ...,   1.421e-14,   1.421e-14],
           [  3.109e-14,  -5.058e+00, ...,   2.931e-14,   2.931e-14]])

    Use a pre-computed log-power Mel spectrogram

    >>> S = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128,
    ...                                    fmax=8000)
    >>> librosa.feature.mfcc(S=librosa.power_to_db(S))
    array([[ -5.207e+02,  -4.898e+02, ...,  -5.207e+02,  -5.207e+02],
           [ -2.576e-14,   4.054e+01, ...,  -3.997e-14,  -3.997e-14],
           ...,
           [  7.105e-15,  -3.534e+00, ...,   0.000e+00,   0.000e+00],
           [  3.020e-14,  -2.613e+00, ...,   3.553e-14,   3.553e-14]])

    Get more components

    >>> mfccs = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=40)

    Visualize the MFCC series

    >>> import matplotlib.pyplot as plt
    >>> plt.figure(figsize=(10, 4))
    >>> librosa.display.specshow(mfccs, x_axis='time')
    >>> plt.colorbar()
    >>> plt.title('MFCC')
    >>> plt.tight_layout()


    """

    if S is None:
        S = power_to_db(melspectrogram(y=y, sr=sr, **kwargs))

    return np.dot(filters.dct(n_mfcc, S.shape[0]), S)

從程式碼上看，librosa提取mfcc預設沒有預加重和倒譜提升的步驟。
這裡附上一個librosa提取mfcc的完整程式。
另外不同的mfcc特徵提取工具都或多或少有些不同，如果用一個語言版本提取特徵訓練模型後移植時用的是另一個語言版本的工具，就一定要先對比清楚兩個工具特徵的差別，例如librosa預設沒有預加重、HTK是直接在原始整型資料基礎上做的、matlab版本大多在資料末尾補零的等等，關於mfcc的對比，可以參看這裡，還可以看下這篇論文 Comparative_evaluation_of_various_MFCC_implementat
不同MFCCs可能存在的差別：

Mel對映關係（如HTK方式與Slaney）
Mel濾波器的歸一化
DCT係數計算方式
Mel帶數量與寬度
Mel頻率範圍
倒譜提升方式-rasta、htk、或者無
短時傅立葉變換各個引數
抖動或DC消除
預加重

音訊特徵提取及差異

音訊特徵提取及差異

語義的特徵提取及簡單詞頻展示(WordCloud)

關於音訊特徵提取

數字影象處理之特徵提取及常用方法

紋理特徵提取及LBP紋理特徵matlab實現

sift、surf、orb 特徵提取及最優特徵點匹配

基於OpenCV的Gabor變換及特徵提取

人臉表情識別筆記（二）特徵提取之LBP（區域性二值模式）原理及MATLAB程式碼

利用RobHess原始碼實現SIFT演算法及RANSAC去錯的影象特徵提取匹配及去除錯匹配

影象特徵點提取及描述子彙總：FIST、SURF、FAST、BRIEF、ORB、BRISK、FREAK

NLP中的語言模型及文字特徵提取演算法

音訊訊號特徵提取（1）：短時特徵之短時能量、短時功率、短時過零率

opencv上gpu版surf特徵點與orb特徵點提取及匹配例項

音訊特徵（1）：mfcc提取

塊存儲、文件存儲、對象存儲意義及差異

list，map，set集合的基本用法及差異

翻拍特征提取及SVM分類

java基礎之JDBC三：簡單工具類的提取及應用

JQData數據提取及MySQL簡單操作——基於Python

解析京東大資料下高效影象特徵提取方案

音訊特徵提取及差異

相關推薦