語音識別與分類（三分類）

阿新 • • 發佈：2019-01-06

目的：識別三個單詞（bed，cat，happy）

import librosa
import os
from sklearn.model_selection import train_test_split
from keras.utils import to_categorical
import numpy as np
from tqdm import tqdm

二、定義所需函式

def get_labels(path=DATA_PATH):
    labels = os.listdir(path)
    label_indices = np.arange(0, len(labels))
    return 
 labels, label_indices, to_categorical(label_indices)


def wav2mfcc(file_path):
    wave, sr = librosa.load(file_path, mono=True, sr=None)

    mfcc = librosa.feature.mfcc(wave, sr=16000)

    return mfcc


def save_data_to_array(path=DATA_PATH):
    labels, _, _ = get_labels(path)

    for label in labels:

        mfcc_vectors = []

        wavfiles = [path + label + '/' 
 + wavfile for wavfile in os.listdir(path + '/' + label)]
        for wavfile in tqdm(wavfiles, "Saving vectors of label - '{}'".format(label)):
            mfcc = wav2mfcc(wavfile)
            mfcc_vectors.append(mfcc)
        np.save(label + '.npy', mfcc_vectors)


def get_train_test(split_ratio=0.6 
, random_state=42):

    labels, indices, _ = get_labels(DATA_PATH)


    X = np.load(labels[0] + '.npy')
    y = np.zeros(X.shape[0])


    for i, label in enumerate(labels[1:]):
        x = np.load(label + '.npy')
        X = np.vstack((X, x))
        y = np.append(y, np.full(x.shape[0], fill_value= (i + 1)))

    assert X.shape[0] == len(y)

    return train_test_split(X, y, test_size= (1 - split_ratio), random_state=random_state, shuffle=True)



def prepare_dataset(path=DATA_PATH):
    labels, _, _ = get_labels(path)
    data = {}
    for label in labels:
        data[label] = {}
        data[label]['path'] = [path  + label + '/' + wavfile for wavfile in os.listdir(path + '/' + label)]

        vectors = []

        for wavfile in data[label]['path']:
            wave, sr = librosa.load(wavfile, mono=True, sr=None)


            mfcc = librosa.feature.mfcc(wave, sr=16000)
            vectors.append(mfcc)

        data[label]['mfcc'] = vectors

    return data


def load_dataset(path=DATA_PATH):
    data = prepare_dataset(path)

    dataset = []

    for key in data:
        for mfcc in data[key]['mfcc']:
            dataset.append((key, mfcc))

    return dataset[:100]

三、定義模型

def get_model():
    model = Sequential()
    model.add(Conv2D(32, kernel_size=(2, 2), activation='relu', input_shape=(feature_dim_1, feature_dim_2, channel)))
    model.add(Conv2D(48, kernel_size=(2, 2), activation='relu'))
    model.add(Conv2D(120, kernel_size=(2, 2), activation='relu'))
    model.add(MaxPooling2D(pool_size=(2, 2)))
    model.add(Dropout(0.25))
    model.add(Flatten())
    model.add(Dense(128, activation='relu'))
    model.add(Dropout(0.25))
    model.add(Dense(64, activation='relu'))
    model.add(Dropout(0.4))
    model.add(Dense(num_classes, activation='softmax'))
    model.compile(loss=keras.losses.categorical_crossentropy,
                  optimizer=keras.optimizers.Adadelta(),
                  metrics=['accuracy'])
    return model

四、填入資料

%load_ext autoreload
#自動載入模組
%autoreload 2
#%aimport每次執行鍵入的Python程式碼之前，每次重新載入所有模組（排除的除外）。

from preprocess import *
import keras
from keras.models import Sequential
from keras.layers import Dense, Dropout, Flatten, Conv2D, MaxPooling2D
from keras.utils import to_categorical


feature_dim_2 = 32


save_data_to_array(max_len=feature_dim_2)


X_train, X_test, y_train, y_test = get_train_test()


feature_dim_1 = 20
channel = 1
epochs = 50
batch_size = 100
verbose = 1
num_classes = 3


X_train = X_train.reshape(X_train.shape[0], feature_dim_1, feature_dim_2, channel)
X_test = X_test.reshape(X_test.shape[0], feature_dim_1, feature_dim_2, channel)

y_train_hot = to_categorical(y_train)
y_test_hot = to_categorical(y_test)

五、評價模型

model = get_model()
model.fit(X_train, y_train_hot, batch_size=batch_size, epochs=epochs, verbose=verbose, validation_data=(X_test, y_test_hot))

模型準確率在0.95
大家可以親自嘗試一下。

語音識別與分類（三分類）

目的：識別三個單詞（bed，cat，happy） import librosa import os from sklearn.model_selection import train_test_split from keras.utils import t

語音識別學習筆記（三）【動態時間歸正的識別技術】

語音識別學習筆記（三）【動態時間歸正的識別技術】 1.概述在語音識別中，簡單的將輸入模板和參考模板進行比較存在很大的缺陷，因為語音訊號具有很大的隨機性，即便是同一個人在不同時刻說同一句話，也不可能具有完全相同的時間長度，因此時間歸正處理是必不可少的！動態時間彎折（

百度語音合成與語音識別api使用（Java版本）

百度語音合成與語音識別api使用（Java版本）百度語音合成官方文件：https://ai.baidu.com/docs#/TTS-Online-Java-SDK/top 百度語音識別官方文件：https://ai.baidu.com/docs#/ASR-Online-

keras對貓、狗資料集進行分類（三）

使用已訓練模型對貓狗圖片進行測試，以及視覺化模型訓練過程。示例程式碼： # # 視覺化卷積神經網路 # # 人們常說，深度學習模型是“黑盒子”，學習表示難以提取並以人類可讀的形式呈現。 # 雖然對於某些型別的深度學習模型來說這是部分正確的，但對於小行星來說絕對不是這樣。 # 由con

OpenCV學習筆記（三十三）——用haar特徵訓練自己的分類器（再做手勢檢測）

資料還是得看啊，又讀了經典文獻《Robust Real-Time Face Detection》，不願意讀原文的朋友可以看看http://blog.csdn.net/hqw7286/article/details/5556767，作者把文中的要點基本也都總結出來了。Ope

Python機器學習庫sklearn裡利用感知機進行三分類（多分類）的原理

from IPython.display import Image %matplotlib inline # Added version check for recent scikit-learn 0.18 checks from distutils.vers

模式識別學習筆記（十六）--非線性分類器

前面的學習中，我們學習了有關線性分類器的相關知識，但是要知道，很多情況下我們並不能保證類別間的分類面是線性的（線性是最簡單的情況），而且許多複雜問題中，可能採用非線性分類器更適合問題的解決；因此接下來開始，繼續學習有關非線性分類器的東西，必要時可以跟前面線性分類器進行一個總

百度大腦人臉識別深度驗證與思考（三）之顏值識別

環境 win7 32位 VisualStudio2017 python3.6.3 opencv3.3.1 pyQt5.9 baidu-AIP 1.6.9.0 特別宣告所有圖片均來自網路

Keras的簡單應用（三分類問題）——改編自cifar10vgg16

此為改編自cifar10的三分類問題：from __future__ import print_function #此為在老版本的python中兼顧新特性的一種方法 import keras from keras.preprocessing.image import Ima

Python機器學習庫sklearn裡利用LR模型進行三分類（多分類）的原理

首先，LR將線性模型利用sigmoid函式進一步做了非線性對映。將分類超平面兩側的正負樣本點，通過壓縮函式轉化成了以0.5為分解的兩類：類別0和類別1。這個轉化過程見下圖：上圖給出的是線性邊界與LR分佈函式（即sigmoid函式）的對映對應關係；同樣，對於非線

matlab 下交叉驗證與 svm （多分類）模型的使用

筆記下面是程式碼，註釋一般都能看懂的。%datas為讀入的資料集 labels為讀入的標籤 %規範化資料 [datas_normal] = premnmx(datas) ; %交叉驗證 k =10

python實現決策樹分類（三）

在上一篇文章中，我們已經構建了決策樹，接下來可以使用它用於實際的資料分類。在執行資料分類時，需要決策時以及標籤向量。程式比較測試資料和決策樹上的數值，遞迴執行直到進入葉子節點。這篇文章主要使用決策樹分類器就行分類，資料集採用UCI資料庫中的紅酒，白酒資料，主要特徵包括12

高光譜影象分類（三）分類流程

如何利用稀疏表示進行高光譜影象分類呢？前面我們已經瞭解了高光譜影象分類的一些基本概念，那這篇文章當中將講解高光譜影象分類具體的流程是怎麼樣的。以下是高光譜影象分類的具體詳細步驟： 1.匯入in

C# 10分鐘完成百度語音技術（語音識別與合成）——入門篇

我們已經講了人臉識別（入門+進階）、圖片識別（入門）。下面是連結： C# 10分鐘完成百度人臉識別——入門篇 C# 30分鐘完成百度人臉識別——進階篇（文末附原始碼） C# 10分鐘完成百度圖片提取文字（文字識別）——入門篇今天我們來盤一盤語音識別與合成。 PS：僅供瞭解參考，如需進一步瞭解請繼續研究。我

轉載：poj題目分類（侵刪）

ide ive navi factor bsp 基礎題動態規劃中序遍歷構圖轉載:from: POJ:http://blog.csdn.net/qq_28236309/article/details/47818407 按照ac的代碼長度分類（主要參考最短代碼和自己寫的

MySQL與Oracle（三）---日期對比（Oracle）

數據庫 alt to_date pan 技術分享時間日期軟件 floor lte Oracle： 1.獲取當前日期的年，月，日，時，分，秒 select to_char(sysdate,‘yyyy‘) as nowYear from dual; //獲取時間

WPF入門教程系列八——布局之Grid與UniformGrid（三）

input 接下來 toolbar wid ids 全部 ica tar 生成五. Grid Grid顧名思義就是“網格”，它的子控件被放在一個一個實現定義好的小格子裏面，整齊配列。 Grid和其他各個Panel比較起來，功能最多也最為復雜。要使用Grid，首先要向Row

SQL註入漏洞的分析與利用（三）

和數 form 打開用戶 data 用戶名 text 必須存儲 MySQL數據庫：元數據庫information_schema1.在5.0以後版本的MySQL中存在著一個元數據庫information_schema，其中存儲著用戶在MySQL中創建的所有其他數據庫的信

Redis 設計與實現（三）

check 就會鍵值鍵值對是否 second 變化 write 次數 RDB 持久化　一、生成RDB 　　cmd：SAVE --阻塞進程，執行完，才能有效接收客戶端命令。　　cmd: BGSAVE --非阻塞，開啟子進程保存。　　　　　　　　　　客

Kotlin學習與實踐（三）fun 函數

意義 element 中間類的方法 int prefix cal save tor 通過例子來學習如何高效的在Kotlin中定義使用函數。 1、命名參數、默認參數、頂層函數、擴展函數 * 展示幾種創建集合類的方法和擴展的簡單操作集合類的方法 fun createColl

語音識別與分類（三分類）

相關推薦