Python人工智能之路 - 第三篇 : PyAudio 實現錄音自動化交互實現問答

阿新 • • 發佈：2018-06-23

獲得本地文件一次 cor ets win 不清晰考題 dbo

Python 很強大其原因就是因為它龐大的三方庫 , 資源是非常的豐富 , 當然也不會缺少關於音頻的庫

關於音頻, PyAudio 這個庫, 可以實現開啟麥克風錄音, 可以播放音頻文件等等,此刻我們不去了解其他的功能,只了解一下它如何實現錄音的

首先要先 pip 一個 PyAudio

pip install pyaudio

一.PyAudio 實現麥克風錄音

然後建立一個py文件,復制如下代碼

import pyaudio
import wave

CHUNK = 1024
FORMAT = pyaudio.paInt16
CHANNELS = 2
RATE = 16000
RECORD_SECONDS  
= 2
WAVE_OUTPUT_FILENAME = "Oldboy.wav"

p = pyaudio.PyAudio()

stream = p.open(format=FORMAT,
                channels=CHANNELS,
                rate=RATE,
                input=True,
                frames_per_buffer=CHUNK)

print("開始錄音,請說話......")

frames = []

for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
    data  
= stream.read(CHUNK)
    frames.append(data)

print("錄音結束,請閉嘴!")

stream.stop_stream()
stream.close()
p.terminate()

wf = wave.open(WAVE_OUTPUT_FILENAME, ‘wb‘)
wf.setnchannels(CHANNELS)
wf.setsampwidth(p.get_sample_size(FORMAT))
wf.setframerate(RATE)
wf.writeframes(b‘‘.join(frames))
wf.close()

嘗試一下,在目錄中出現了一個 Oldboy.wav 文件 , 聽一聽,還是很清晰的嘛

接下來,我們將這段錄音代碼,寫在一個函數裏面,如果要錄音的話就調用

建立一個文件 pyrec.py 並將錄音代碼和函數寫在內

# pyrec.py 文件內容
import pyaudio
import wave

CHUNK = 1024
FORMAT = pyaudio.paInt16
CHANNELS = 2
RATE = 16000
RECORD_SECONDS = 2

def rec(file_name):
    p = pyaudio.PyAudio()

    stream = p.open(format=FORMAT,
                    channels=CHANNELS,
                    rate=RATE,
                    input=True,
                    frames_per_buffer=CHUNK)

    print("開始錄音,請說話......")

    frames = []

    for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
        data = stream.read(CHUNK)
        frames.append(data)

    print("錄音結束,請閉嘴!")

    stream.stop_stream()
    stream.close()
    p.terminate()

    wf = wave.open(file_name, ‘wb‘)
    wf.setnchannels(CHANNELS)
    wf.setsampwidth(p.get_sample_size(FORMAT))
    wf.setframerate(RATE)
    wf.writeframes(b‘‘.join(frames))
    wf.close()

rec 函數就是我們調用的錄音函數,並且給他一個文件名,他就會自動將聲音寫入到文件中了

二.實現音頻格式自動轉換並調用語音識別

錄音的問題解決了,趕快和百度語音識別接在一起使用一下:

技術分享圖片

不管你的錄音有多麽多麽清晰,你發現百度給你返回的永遠是:

{‘err_msg‘: ‘speech quality error.‘, ‘err_no‘: 3301, ‘sn‘: ‘6397933501529645284‘} # 音質不清晰

其實不是沒聽清,而是百度支持的音頻格式PCM搞的鬼

所以,我們要將錄制的wav音頻文件轉換為pcm文件

寫一個文件 wav2pcm.py 這個文件裏面的函數是專門為我們轉換wav文件的

使用 os 模塊中的 os.system()方法這個方法是執行系統命令用的, 在windows系統中的命令就是 cmd 裏面寫的東西,dir , cd 這類的命令

# wav2pcm.py 文件內容
import os

def wav_to_pcm(wav_file):
    # 假設 wav_file = "音頻文件.wav"
    # wav_file.split(".") 得到["音頻文件","wav"] 拿出第一個結果"音頻文件"  與 ".pcm" 拼接 等到結果 "音頻文件.pcm"
    pcm_file = "%s.pcm" %(wav_file.split(".")[0])

    # 就是此前我們在cmd窗口中輸入命令,這裏面就是在讓Python幫我們在cmd中執行命令
    os.system("ffmpeg -y  -i %s  -acodec pcm_s16le -f s16le -ac 1 -ar 16000 %s"%(wav_file,pcm_file))

    return pcm_file

這樣我們就有了把wav轉為pcm的函數了 , 再重新構建一次咱們的代碼

技術分享圖片

這次的返回結果還挺讓人滿意的嘛

{‘corpus_no‘: ‘6569869134617218414‘, ‘err_msg‘: ‘success.‘, ‘err_no‘: 0, ‘result‘: [‘老男孩教育‘], ‘sn‘: ‘8116162981529666859‘}

拿到語音識別的字符串了,接下來用這段字符串語音合成, 學習咱們說出來的話

三.語音合成與 FFmpeg 播放mp3 文件

拿到字符串了,直接調用synthesis方法去合成吧

技術分享圖片

這段代碼銜接上一段代碼,成功獲得了 synth.mp3 音頻文件,並且確定了實在學習我們說的話

接下來就是讓我們的程序自動將 synth.mp3 音頻文件播放了其實PyAudio 有播放的功能,但是操作有點復雜

所以我們還是選擇用簡單的方式解決復雜的問題,就是這麽簡單粗暴,是否還記得FFmpeg 呢?

FFmpeg 這個系統工具中,有一個 ffplay 的工具用來打開並播放音頻文件的,使用方法大概是: ffplay 音頻文件.mp3

建立一個playmp3.py文件, 寫一個 play_mp3 的函數用來播放已經合成的語音

# playmp3.py 文件內容
import os

def play_mp3(file_name):
    os.system("ffplay  %s"%(file_name))

回到主文件,調用playmp3.py文件中的 play_mp3 函數

技術分享圖片

執行代碼,當你看到 : 開始錄音,請說話......

請大聲的說出: 學IT 找老男孩教育

然後你就會聽到,一個嬌滴滴聲音重復你說的話

四.簡單問答

首先我們要把代碼重新梳理一下:

把語音合成語音識別部分的代碼獨立成函數放到baidu_ai.py文件中

# baidu_ai.py 文件內容
from aip import AipSpeech

# 這裏的三個參數,對應在百度語音創建的應用中的三個參數
APP_ID = "xxxxx"
API_KEY = "xxxxxxx"
SECRET_KEY = "xxxxxxxx"

client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)


def audio_to_text(pcm_file):
    # 讀取文件 , 終於得到了PCM文件
    with open(pcm_file, ‘rb‘) as fp:
        file_context = fp.read()

    # 識別本地文件
    res = client.asr(file_context, ‘pcm‘, 16000, {
        ‘dev_pid‘: 1536,
    })

    # 從字典裏面獲取"result"的value 列表中第1個元素,就是識別出來的字符串"老男孩教育"
    res_str = res.get("result")[0]

    return res_str


def text_to_audio(res_str):
    synth_file = "synth.mp3"
    synth_context = client.synthesis(res_str, "zh", 1, {
        "vol": 5,
        "spd": 4,
        "pit": 9,
        "per": 4
    })

    with open(synth_file, "wb") as f:
        f.write(synth_context)

    return synth_file

然後把我們的主文件進行一下修改

import pyrec  # 錄音函數文件
import wav2pcm  # wav轉換pcm 函數文件
import baidu_ai  # 語音合成函數,語音識別函數 文件
import playmp3  # 播放mp3 函數 文件

pyrec.rec("1.wav")  # 錄音並生成wav文件,使用方式傳入文件名

pcm_file = wav2pcm.wav_to_pcm("1.wav")  # 將wav文件 轉換成pcm文件 返回 pcm的文件名

res_str = baidu_ai.audio_to_text(pcm_file) # 將轉換後的pcm音頻文件識別成 文字 res_str

synth_file = baidu_ai.text_to_audio(res_str) # 將res_str 字符串 合成語音 返回文件名 synth_file

playmp3.play_mp3(synth_file) # 播放 synth_file

然後就是大展宏圖的時候了,展開你們的想象力:

res_str 是字符串,如果字符串等於"你叫什麽名字"的時候,我們就要給他一個回答:我的名字叫老男孩教育

新建一個FAQ.py的文件然後建立一個函數faq:

# FAQ.py 文件內容
def faq(Q):
    if Q == "你叫什麽名字": # 問題
        return "我的名字是老男孩教育" # 答案

　　return "我不知道你在說什麽" #問題沒有答案時返

在主文件中導入這個函數,並將語音識別後的字符串傳入函數中

技術分享圖片

現在來嘗試一下:"你叫什麽名字","你今年幾歲了"

成功了,現在你可以對 FAQ.py 這個文件進行更多的問題匹配了

還是那句話,別玩兒壞了

思考題:

1.如何實現一直問答不用問一次停一次?

2.問題那麽多,是不是要寫這麽多問題呢?

3.如果我問你是誰,是不是要重復也一次我的名字叫老男孩教育的答案呢?

Python人工智能之路 - 第三篇 : PyAudio 實現錄音自動化交互實現問答

獲得本地文件一次 cor ets win 不清晰考題 dbo Python 很強大其原因就是因為它龐大的三方庫 , 資源是非常的豐富 , 當然也不會缺少關於音頻的庫關於音頻, PyAudio 這個庫, 可以實現開啟麥克風錄音, 可以播放音頻文件等等,此刻我們不去了解

Python人工智能之路 - 第一篇 : 你得會點兒Python基礎

序列但是入參而不是 username 定義函數 json序列化並且 color Python 號稱是最接近人工智能的語言,因為它的動態便捷性和靈活的三方擴展,成就了它在人工智能領域的豐碑走進Python,靠近人工智能一.編程語言Python的基礎之 "淺入淺出

python實現人工智能之路--語音識別加語音合成

name lap ons nsa aud str play text not 代碼如下 from aip import AipSpeech import os APP_ID = ‘14940732‘ API_KEY = ‘tm1jAzv8dnDQM5yz

python之路第三篇

區別英語 utf-8 系統存在創建 tel run 變量名 python文件目錄操作 python中對文件、文件夾（文件操作函數）的操作需要涉及到os模塊和shutil模塊。得到當前工作目錄，即當前Python腳本工作的目錄路

文科生逆襲人工智能之路

快速 article 學習英語娛樂健身個人經驗 app 課程學習對數出處｜極客時間《人工智能基礎課》專欄極客時間上線以來，我們收到很多評論，其中有不少說的是自己通過極客時間專欄和課程學習後，收獲的提升和成長。下面是用戶徐淩的故事，分享給大家，我們一起學習。 1

重構之路第三篇——重新組織數據

chan direction hang rate state elf with bsp 類型本篇目錄： 1 Self Encapsulate Field(自封裝字段) 2 Replace Data Value with Object(以對象取代數據值) 3 Change

Django之路--第三篇

creat () roo object migrate filter sta migration upd 1.ORM1.1.創建類和字段 class UserInfo(models.Model): name=models.CharField(max_length=6

黎想深度訪談騰訊頂級產品經理的進階之路——第三篇《需求》

16個月精心打磨，9位頂級產品專家研討提煉，凝聚騰訊產品經驗的八集八分鐘產品課分別從使用者、定位、需求、時機、匠心、危機、合作、商業角度出發，還原產品背後的故事，分享給你騰訊產品的心法。藝形藝意工作室創始人黎想將深度訪談騰訊頂級產品經理的進階之路，邀您一起探索一

前端之路——第三篇：列表、表單、提交按鈕、html佈局、css的display，製造第一個表單提交案例

第三課了，今天知識點至關重要。網頁常用的表單提交！！！就這樣羅列下第三課的知識點吧，不搞水印圖片了。 1.有序列表：語法（<ol><li></li></ol>），<ol>標籤能讓瀏覽器預設帶出排序，教為少用

python學習之路——第三彈（作業篇第一題）

image 操作啟動程序代碼 color 鎖定文件文件文件內容數據作業一：編寫登錄接口1.輸入用戶名密碼2.認證成功後顯示歡迎信息3.輸錯三次後鎖定。所需知識點文件基本讀寫操作，循環，列表，字典上面的作業題是在學習完數據類型和簡單的文件操作之後布置的，

python學習之路-第三天-一個簡單的腳本

tro 說明 .py else zipfile rect dylib 環境 cef 現在有一個需求：把某個目錄下的文件備份到指定到另外一個目錄下，而且壓縮後文件為zip文件 # -*- coding:utf-8 -*- #! /usr/bin/python # Filena

Python之路(第三十一篇) 網路程式設計：簡單的tcp套接字通訊、粘包現象

一、簡單的tcp套接字通訊套接字通訊的一般流程服務端 server = socket() #建立伺服器套接字 server.bind() #把地址繫結到套接字,網路地址加埠 server.listen() #監聽連結 inf_loop:

Python之路(第三十三篇) 網路程式設計：socketserver深度解析

一、socketserver 模組介紹 socketserver是標準庫中的一個高階模組，用於網路客戶端與伺服器的實現。(version = "0.4") 在python2中寫作SocketServer,在python3中寫作socketserver。 socoketserver兩個主要的類，一個是S

Python之路(第三十四篇) 網路程式設計：驗證客戶端合法性

一、驗證客戶端合法性如果你想在分散式系統中實現一個簡單的客戶端連結認證功能，又不像SSL那麼複雜，那麼利用hmac+加鹽的方式來實現。　客戶端驗證的總的思路是將服務端隨機產生的指定位數的位元組傳送到客戶端，兩邊同時用hmac進行加密，然後對生成的密文進行比較，相同就是合法的客戶端，不相同就是不合法

Python之路(第三十七篇)併發程式設計：程序、multiprocess模組、建立程序方式、join()、守護程序

一、在python程式中的程序操作　之前已經瞭解了很多程序相關的理論知識，瞭解程序是什麼應該不再困難了，執行中的程式就是一個程序。所有的程序都是通過它的父程序來建立的。因此，執行起來的python程式也是一個程序，那麼也可以在程式中再建立程序。多個程序可以實現併發效果，也就是說，當程式中存在多個程序的時候

Python之路(第三十八篇) 併發程式設計：程序同步鎖/互斥鎖、訊號量、事件、佇列、生產者消費者模型

一、程序鎖（同步鎖/互斥鎖）程序之間資料不共享,但是共享同一套檔案系統,所以訪問同一個檔案,或同一個列印終端,是沒有問題的, 而共享帶來的是競爭，競爭帶來的結果就是錯亂，如何控制，就是加鎖處理。例子 #併發執行,效率高,但競爭同一列印終端,帶來了列印錯亂 from multiproc

python開發之路---第三次筆記

部分字串用法 1 s.startswith() # 以xxxx開頭 2 s.endswith() # 以xxxx結尾 3 s.split() #以某個字元分割字串，並以列表的形式儲存 4 isdigit

人工智能之歸結反演法

nbsp blog mage 不同不同的博客 log inf ima 歸結反演法魯濱遜歸結原理檢查子句集S中是否包含空子句。若包含，則S不可滿足；若不包含，就在子句集中選擇合適的子句進行歸結，一旦通過歸結能推出空子句，就說明子句集S是不可滿足的。（這是我

《從零玩轉python+人工智能-3》120,122節課深度優先疑問解答

反向人工智能人工智繼承父類原則隊列並不是理解深度優先（從左往右）；按照這個原則來；至於使用棧，或者隊列；根據它們不同的特性；最終務必保證最終結果是原繼承結構的“從左往右”；所以，如果是棧，就是右側先入棧，左側再入（這樣左側能先出來，遵循從左到右的原則；

Python 人工智能算法工具包 SimpleAI

elf code earch nop () arc star res ble SimpleAI 是 Python 實現的人工智能算法工具包，示例代碼： from simpleai.search import SearchProblem, astar GOAL = ‘HEL

Python人工智能之路 - 第三篇 : PyAudio 實現錄音 自動化交互實現問答

相關推薦

Python人工智能之路 - 第三篇 : PyAudio 實現錄音自動化交互實現問答