不到一百行實現一個命令詞識別

阿新 • • 發佈：2019-01-14

想要容易理解核心的特徵計算的話建議先去看看我之前的聽歌識曲的文章，傳送門:http://www.cnblogs.com/chuxiuhong/p/6063602.html

本文主要是實現了一個簡單的命令詞識別程式，演算法核心一是提取音訊特徵，二是用DTW演算法進行匹配。當然，這樣的程式碼肯定不能用於商業化，大家做出來玩玩娛樂一下還是不錯的。

轉載請保留本文連結，謝謝。

設計思路

就算是個小東西，我們也要先明確思路再做。音訊識別，困難不小，其中提取特徵的難度在我聽歌識曲那篇文章裡能看得出來。而語音識別難度更大，因為音樂總是固定的，而人類說話常常是變化的。比如說一個“芝麻開門”，有的人就會說成“芝麻~~開門”，有的人會說成“芝麻開門~~”。而且在錄音時說話的時間也不一樣，可能很緊迫的一開始錄音就說話了，也可能不緊不慢的快要錄音結束了才把這四個字說出來。這樣難度就大了。

演算法流程：

特徵提取

和之前的聽歌識曲一樣，同樣是將一秒鐘分成40塊，對每一塊進行傅立葉變換，然後取模長。只是這不像之前聽歌識曲中進一步進行提取峰值，而是直接當做特徵值。
看不懂我在說什麼的朋友可以看看下面的原始碼，或者看聽歌識曲那篇文章。

DTW演算法

DTW，Dynamic Time Warping，動態時間歸整。演算法解決的問題是將不同發音長短和位置進行最適合的匹配。

演算法輸入兩組音訊的特徵向量: A:[fp1,fp2,fp3,......,fpM1] B:[fp1,fp2,fp3,fp4,.....fpM2]
A組共有M1個特徵，B組共有M2個音訊。每個特徵向量中的元素就是之前我們將每秒切成40塊之後FFT求模長的向量。計算每對fp之間的代價採用的是歐氏距離。

設D(fpa,fpb)為兩個特徵的距離代價。

那麼我們可以畫出下面這樣的圖

我們需要從(1,1)點走到(M1,M2)點，這會有很多種走法，而每種走法就是一種兩個音訊位置匹配的方式。但我們的目標是走的總過程中代價最小，這樣可以保證這種對齊方式是使我們得到最接近的對齊方式。

我們這樣走：首先兩個座標軸上的各個點都是可以直接計算累加代價和求出的。然後對於中間的點來說D(i,j) = Min{D(i-1,j)+D(fpi,fpj) , D(i,j-1)+D(fpi,fpj) , D(i-1,j-1) + 2 * D(fpi,fpj)}
為什麼由(i-1,j-1)直接走到(i,j)這個點需要加上兩倍的代價呢？因為別人走正方形的兩個直角邊，它走的是正方形的對角線啊

按照這個原理選擇，一直算到D(M1,M2)，這就是兩個音訊的距離。

原始碼和註釋

# coding=utf8
import os
import wave
import dtw
import numpy as np
import pyaudio

def compute_distance_vec(vec1, vec2):
    return np.linalg.norm(vec1 - vec2) #計算兩個特徵之間的歐氏距離

class record():
    def record(self, CHUNK=44100, FORMAT=pyaudio.paInt16, CHANNELS=2, RATE=44100, RECORD_SECONDS=200,
               WAVE_OUTPUT_FILENAME="record.wav"):
        #錄歌方法
        p = pyaudio.PyAudio()
        stream = p.open(format=FORMAT,
                        channels=CHANNELS,
                        rate=RATE,
                        input=True,
                        frames_per_buffer=CHUNK)
        frames = []
        for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
            data = stream.read(CHUNK)
            frames.append(data)
        stream.stop_stream()
        stream.close()
        p.terminate()
        wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
        wf.setnchannels(CHANNELS)
        wf.setsampwidth(p.get_sample_size(FORMAT))
        wf.setframerate(RATE)
        wf.writeframes(''.join(frames))
        wf.close()

class voice():
    def loaddata(self, filepath):
        try:
            f = wave.open(filepath, 'rb')
            params = f.getparams()
            self.nchannels, self.sampwidth, self.framerate, self.nframes = params[:4]
            str_data = f.readframes(self.nframes)
            self.wave_data = np.fromstring(str_data, dtype=np.short)
            self.wave_data.shape = -1, self.sampwidth
            self.wave_data = self.wave_data.T #儲存歌曲原始陣列
            f.close()
            self.name = os.path.basename(filepath)  # 記錄下檔名
            return True
        except:
            raise IOError, 'File Error'

    def fft(self, frames=40):
        self.fft_blocks = [] #將音訊每秒分成40塊，再對每塊做傅立葉變換
        blocks_size = self.framerate / frames
        for i in xrange(0, len(self.wave_data[0]) - blocks_size, blocks_size):
            self.fft_blocks.append(np.abs(np.fft.fft(self.wave_data[0][i:i + blocks_size])))
    @staticmethod
    def play(filepath):
        chunk = 1024
        wf = wave.open(filepath, 'rb')
        p = pyaudio.PyAudio()
        # 播放音樂方法
        stream = p.open(format=p.get_format_from_width(wf.getsampwidth()),
                        channels=wf.getnchannels(),
                        rate=wf.getframerate(),
                        output=True)
        while True:
            data = wf.readframes(chunk)
            if data == "": break
            stream.write(data)
        stream.close()
        p.terminate()
if __name__ == '__main__':
    r = record()
    r.record(RECORD_SECONDS=3, WAVE_OUTPUT_FILENAME='record.wav')
    v = voice()
    v.loaddata('record.wav')
    v.fft()
    file_list = os.listdir(os.getcwd())
    res = []
    for i in file_list:
        if i.split('.')[1] == 'wav' and i.split('.')[0] != 'record':
            temp = voice()
            temp.loaddata(i)
            temp.fft()
            res.append((dtw.dtw(v.fft_blocks, temp.fft_blocks, compute_distance_vec)[0],i))
    res.sort()
    print res
    if res[0][1].find('open_qq') != -1:
        os.system('C:\program\Tencent\QQ\Bin\QQScLauncher.exe') #我的QQ路徑
    elif res[0][1].find('zhimakaimen') != -1:
        os.system('chrome.exe')#瀏覽器的路徑，之前已經被新增到了Path中了
    elif res[0][1].find('play_music') != -1:
        voice.play('C:\data\music\\audio\\audio\\ (9).wav') #播放一段音樂
    # r = record()
    # r.record(RECORD_SECONDS=3,WAVE_OUTPUT_FILENAME='zhimakaimen_09.wav')

事先可以先用這裡的record方法錄製幾段命令詞，嘗試用不同語氣說，不同節奏說，這樣可以提高準確度。然後設計好檔名，根據匹配到的最接近音訊的檔名就可以知道是哪種命令，進而自定義執行不同的任務

下面是一段演示視訊：
http://www.iqiyi.com/w_19ruisynsd.html

歡迎大家提建議

不到一百行實現一個命令詞識別

設計思路

特徵提取

DTW演算法

原始碼和註釋

不到一百行實現一個命令詞識別

[轉]Kaldi命令詞識別

用python實現一個命令行文本編輯器

機器學習工程師 - Udacity 專案：實現一個狗品種識別演算法App

科大訊飛離線語音命令詞識別的使用說明

訊飛語音——離線命令詞識別

shell練習：寫一個腳本實現如下功能：輸入一個數字，然後運行對應的一個命令。顯示命令如下：*cmd

不到50行程式碼實現一個能對請求併發數做限制的通用RequestDecorator

不到100行程式碼實現一個簡單的推薦系統

如何使用Docker實現PHP命令行程序的CI/CD？

'mingw32-make' 不是內部或外部命令，也不是可運行的程序或批處理文件。（的解決方案）

linux怎麽用一個命令行統計出給定目錄中有多少個子目錄

Jmeter-無法啟動，'findstr'不是內部或外部命令，也不是可運行的程序

用java實現從命令行接收多個數字，求和之後輸出結果

如何實現在命令行輸入pwd時顯示出ifconfig的效果

用css實現文本不換行切超出限制時顯示省略號（小tips）

'pip' 不是內部或外部命令，也不是可運行的程序或批處理文件 — 處理辦法

錯誤：'nasm' 不是內部或外部命令，也不是可運行的程序

CMD下出現 . 點不是內部或外部命令，也不是可運行的程序或批處理文件

'webpack-dev-server' 不是內部或外部命令，也不是可運行的程序

不到一百行實現一個命令詞識別

設計思路

特徵提取

DTW演算法

原始碼和註釋

相關推薦