【學習筆記】使用python進行音訊識別

阿新 • • 發佈：2019-01-01

直接上程式碼

my_audio.py

# -*- coding: utf-8 -*-
# Created: huashan

import os
import re
import wave

import numpy as np
import pyaudio


class voice():
    def loaddata(self, filepath):
        '''

        :param filepath: 檔案路徑，為wav檔案
        :return: 如果無異常則返回True，如果有異常退出並返回False
        self.wave_data內儲存著多通道的音訊資料，其中self.wave_data[0]代表第一通道
        具體有幾通道，看self.nchannels
        '''
        if type(filepath) != str:
            raise TypeError, 'the type of filepath must be string'
        p1 = re.compile('\.wav')
        if p1.findall(filepath) is None:
            raise IOError, 'the suffix of file must be .wav'
        try:
            f = wave.open(filepath, 'rb')
            params = f.getparams()
            self.nchannels, self.sampwidth, self.framerate, self.nframes = params[:4]
            str_data = f.readframes(self.nframes)
            self.wave_data = np.fromstring(str_data, dtype=np.short)
            self.wave_data.shape = -1, self.sampwidth
            self.wave_data = self.wave_data.T
            f.close()
            self.name = os.path.basename(filepath)  # 記錄下檔名
            return True
        except:
            raise IOError, 'File Error'

    def fft(self, frames=40):
        '''
        整體指紋提取的核心方法，將整個音訊分塊後分別對每塊進行傅立葉變換，之後分子帶抽取高能量點的下標
        :param frames: frames是指定每秒鐘分塊數
        :return:
        '''
        block = []
        fft_blocks = []
        self.high_point = []
        blocks_size = self.framerate / frames  # block_size為每一塊的frame數量
        blocks_num = self.nframes / blocks_size  # 將音訊分塊的數量
        for i in xrange(0, len(self.wave_data[0]) - blocks_size, blocks_size):
            block.append(self.wave_data[0][i:i + blocks_size])
            fft_blocks.append(np.abs(np.fft.fft(self.wave_data[0][i:i + blocks_size])))
            self.high_point.append((np.argmax(fft_blocks[-1][:40]),
                                    np.argmax(fft_blocks[-1][40:80]) + 40,
                                    np.argmax(fft_blocks[-1][80:120]) + 80,
                                    np.argmax(fft_blocks[-1][120:180]) + 120,
                                    # np.argmax(fft_blocks[-1][180:300]) + 180,
                                    ))

    def play(self, filepath):
        '''
        音訊播放方法
        :param filepath:檔案路徑
        :return:
        '''
        chunk = 1024
        wf = wave.open(filepath, 'rb')
        p = pyaudio.PyAudio()
        # 開啟聲音輸出流
        stream = p.open(format=p.get_format_from_width(wf.getsampwidth()),
                        channels=wf.getnchannels(),
                        rate=wf.getframerate(),
                        output=True)
        # 寫聲音輸出流進行播放
        while True:
            data = wf.readframes(chunk)
            if data == "": break
            stream.write(data)
        stream.close()
        p.terminate()


if __name__ == '__main__':
    p = voice()
    p.play('the_mess.wav')
    print p.name

plar.py

# -*- coding: utf-8 -*-
# Created: huashan

import os

import MySQLdb

import my_audio


class memory():
    def __init__(self, host, port, user, passwd, db):
        '''
        初始化的方法，主要是儲存連線資料庫的引數
        :param host:
        :param port:
        :param user:
        :param passwd:
        :param db:
        '''
        self.host = host
        self.port = port
        self.user = user
        self.passwd = passwd
        self.db = db

    def addsong(self, path):
        '''
        新增歌曲方法，將歌曲名和歌曲特徵指紋存到資料庫
        :param path: 歌曲路徑
        :return:
        '''
        if type(path) != str:
            raise TypeError, 'path need string'
        basename = os.path.basename(path)
        try:
            conn = MySQLdb.connect(host=self.host, port=self.port, user=self.user, passwd=self.passwd, db=self.db,
                                   charset='utf8')
        except:
            print 'DataBase error'
            return None
        cur = conn.cursor()
        namecount = cur.execute("select * from fingerprint.musicdata WHERE song_name = '%s'" % basename)
        if namecount > 0:
            print 'the song has been record!'
            return None
        v = my_audio.voice()
        v.loaddata(path)
        v.fft()
        cur.execute("insert into fingerprint.musicdata VALUES('%s','%s')" % (basename, v.high_point.__str__()))
        conn.commit()
        cur.close()
        conn.close()


    def fp_compare(self, search_fp, match_fp):
        '''

        :param search_fp: 查詢指紋
        :param match_fp: 庫中指紋
        :return:最大相似值 float
        '''
        if len(search_fp) > len(match_fp):
            return 0
        max_similar = 0
        search_fp_len = len(search_fp)
        match_fp_len = len(match_fp)
        for i in range(match_fp_len - search_fp_len):
            temp = 0
            for j in range(search_fp_len):
                if match_fp[i + j] == search_fp[j]:
                    temp += 1
            if temp > max_similar:
                max_similar = temp
        return max_similar

    def search(self, path):
        '''
        搜尋方法，輸入為檔案路徑
        :param path: 待檢索檔案路徑
        :return: 按照相似度排序後的列表，元素型別為tuple，二元組，歌曲名和相似匹配值
        '''
        #先計算出來我們的音訊指紋
        v = my_audio.voice()
        v.loaddata(path)
        v.fft()
        #嘗試連線資料庫
        try:
            conn = MySQLdb.connect(host=self.host, port=self.port, user=self.user, passwd=self.passwd, db=self.db,
                                   charset='utf8')
        except:
            raise IOError, 'DataBase error'
        cur = conn.cursor()
        cur.execute("SELECT * FROM fingerprint.musicdata")
        result = cur.fetchall()
        compare_res = []
        for i in result:
            compare_res.append((self.fp_compare(v.high_point[:-1], eval(i[1])), i[0]))
        compare_res.sort(reverse=True)
        cur.close()
        conn.close()
        print compare_res
        return compare_res

    def search_and_play(self, path):
        '''
        搜尋方法順帶了播放方法
        :param path:檔案路徑
        :return:
        '''
        v = my_audio.voice()
        v.loaddata(path)
        v.fft()
        try:
            conn = MySQLdb.connect(host=self.host, port=self.port, user=self.user, passwd=self.passwd, db=self.db,
                                   charset='utf8')
        except:
            print 'DataBase error'
            return None
        cur = conn.cursor()
        cur.execute("SELECT * FROM fingerprint.musicdata")
        result = cur.fetchall()
        compare_res = []
        for i in result:
            compare_res.append((self.fp_compare(v.high_point[:-1], eval(i[1])), i[0]))
        compare_res.sort(reverse=True)
        cur.close()
        conn.close()
        print compare_res
        v.play(compare_res[0][1])
        return compare_res


if __name__ == '__main__':
    sss = memory('localhost', 3306, 'root', 'huawei', 'fingerprint')
    sss.addsong('60542.wav')
    sss.addsong('70715.wav')
    sss.addsong('70342.wav')
    sss.search_and_play('70715_Convert.wav')

【學習筆記】python爬取百度真實url

python 今天跑個腳本需要一堆測試的url，，，挨個找復制粘貼肯定不是程序員的風格，so，還是寫個腳本吧。環境：python2.7 編輯器：sublime text 3 一、分析一下首先非常感謝百度大佬的url分類非常整齊，都在一個

【學習筆記】python 進階特性

可能 pytho red nbsp python blog 有一個自省 blue __slots__魔法在Python中，每個類都有實例屬性。默認情況下Python用一個字典來保存一個對象的實例屬性。這非常有用，因為它允許我們在運行時去設置任意的新屬性。然而，對於有

【學習筆記】python-日誌logging

and 輸出流 Matter message deb 實例化 formatter 創建級別一、日誌分為幾個級別？debug--調試信息info--詳細信息：數據進度warning 警告信息error 錯誤信息critical 致命的嚴重的錯誤二、實例impo

【學習筆記】Python基礎-字典Dict和Set和List與Str擴充套件

Dict 使用大括號圍起來，這裡提供一種鍵值對的list表示方法 1. Dict {} 2. List [] 3. turple () 例項程式碼 #!/usr/bin/env python3 # -*- coding: utf-8 -*- #

【學習筆記】Python基礎-aiohttp

aiohttp 的初始化函式init()也是一個coroutine，loop.create_server()則利用asyncio建立TCP服務安裝 aiohttp 安裝命令: pip install aiohttp D:\PythonProjec

【學習筆記】使用python進行音訊識別

直接上程式碼 my_audio.py # -*- coding: utf-8 -*- # Created: huashan import os import re import wave import numpy as np import pyaudio class voice(

【安全牛學習筆記】python裝飾器

信息安全 python security+ 互聯網 python裝飾器裝飾器本質上是一個函數，該函數用來處理其他函數，它可以讓其他函數在不需要修改代碼的前提下增加額外的功能，裝飾器的返回值也是一個函數對象。它經常用於有切面需求的場景，比如:插入日誌

【安全牛學習筆記】python實例

信息安全 python security+ 互聯網閉包什麽是閉包?簡單說,閉包就是根據不同的配置信息得到不同的結果再來看看專業的解釋:閉包(Closure)是詞法閉包(Lexical Closure)的簡稱，是引用了自由變量的函數。這個被引用的自

【學習筆記】計算機網絡-利用TELNET進行SMTP的郵件發送

alt tle smtp 用戶 sdn 編碼 out mark watermark 在命令行輸入telnet smtp.163.com 25 然後依次輸入內容用戶名不包括@和後面的部分，用戶名和密碼均需base64編碼成功收到郵件: 【學習筆記】計算機網絡-利用TEL

【安全牛學習筆記】python使用入門

信息安全 security+ python 第一講 python使用入門1.python版本可以分為2.x和3.xPython3.x缺點不向下兼容2.使用python的優點：語法簡潔，可讀性高，開發效率高，無需編譯，移植性好等等3.使用python可以做的事情系統編程，用戶圖形接口，interne

【selenium學習筆記】webdriver進行頁面元素定位

path chrome ring .net 核心簡單 tail 查看 data- 【selenium學習筆記】webdriver進行頁面元素定位進行Web頁面自動化測試，對頁面上的元素進行定位和操作是核心。而操作又是以定位為前提的，因此，對頁面元素的定位是進行自動化

Python 爬蟲第一天改良版【學習筆記】

晚上改良了下午寫的那個，可以批量獲取新浪新聞網頁了。不過也是搬磚來的別人寫好我抄了一遍。from bs4 import BeautifulSoup as bs import requests import csv import json, re import pandas #csv_file = o

【python學習筆記】python字典(dict)

1、字典dict的建立 Python內建了字典：dict的支援，dict全稱dictionary，在其他語言中也稱為map，使用鍵-值（key-value）儲存，具有極快的查詢速度。注意字典內各個部分是沒有順序的區別的；其java的map是一樣的，屬於key:value模式，一個簡單的

【Python學習筆記】python元組

python的元組(tuple)和列表(list)類似，是一個有序的列表，區別在於tuple是不能修改的，其初始化方式如下： >>> classmates = ('Michael', 'Bob', 'Tracy') 現在，classmates這個tuple不能變了

【python學習筆記】python函式定義和傳參方法說明

一、函式定義方式函式定義用關鍵字def，其引數傳遞不用設定型別，也不用定義返回，然後在函式名稱後加上:號，這點和java很不一樣，相對來說更加簡單了；另外包含關係上用四個空格來標識，而非java的;號；如下為一個範例，定義了一個函式用來生成任意上界的菲波那契數列: # -*- c

【Python學習筆記】python列表方法

在python中list是一個有序的集合，可以隨時新增和刪除裡邊的元素其初始化可以使用如下語句： >>> a=[11,22,33,44,55,66] >>>len(a) 6 如下為方法說明 1、append(x) 在list的尾部加入一

【知了堂學習筆記】Python面向物件

Python從設計之初就已經是一門面向物件的語言，正因為如此，在Python中建立一個類和物件是很容易的。接下來我們先來簡單的瞭解下面向物件的一些基本特徵。面向物件技術簡介類(Class): 用來描述具有相同的屬性和方法的物件的集合。它定義了該集合中每個物

【學習筆記】pyQt5學習筆記(6）——Google object detection API訓練&識別用軟體更新

對訓練軟體和識別軟體均再一次進行更新。針對訓練用軟體，V1.0版本是通過下拉框選擇標註物體的標籤，而下拉框中是我預定義的a~f 6個標籤。因此存在的問題就是標籤不能客製化，且若標記超過6類物體標籤數量不夠。針對這個問題進行了更新，現在允許使用者自己輸入標籤名稱，標籤會儲存在下拉選單中，媽媽再

【學習筆記】pyQt5學習筆記(4）——第一個影象識別demoV3.0B

軟體更新日誌V3.0B版本，在2.0基礎上實現了呼叫攝像頭的實時識別功能。V3.0A版若不實時重新整理識別畫面，可以手動點一次識別一次…… 附上完整程式碼，也是做個程式碼備份。需要的小夥伴自取就ok～軟體目前存在的bug是1.在開始識別後會很卡，目前認為可能的原因是每次重新整理

【學習筆記】使用python批量讀取並修改xml檔案（3）

在大老闆的安排下最近在某公司實習，實習期間要求實現一個影象識別模組的封裝。無奈基礎太薄弱，只能將任務細分，單獨學習來實現。以此為背景…… 經過公司師姐的指點，突然毛瑟頓開，編寫了V3.0的程式碼，可以實現的功能：使用者輸入欲改變的圖片尺寸後計算新的xml中bnb box的值、將圖片尺寸改變後

【學習筆記】使用python進行音訊識別

相關推薦