語音識別語音合成

阿新 • • 發佈：2018-11-26

本節內容預備資料:

1.FFmpeg:

連結：https://pan.baidu.com/s/1jonSAa_TG2XuaJEy3iTmHg

密碼：w6hk

2.baidu-aip:

pip install baidu-aip

終於進入主題了,此篇是人工智慧應用的重點,只用現成的技術不做底層演算法,也是讓初級程式設計師快速進入人工智慧行業的捷徑

目前市面上主流的AI技術提供公司有很多,比如百度,阿里,騰訊,主做語音的科大訊飛,做只能問答的圖靈機器人等等

這些公司投入了很大一部分財力物力人力將底層封裝,提供應用介面給我們,尤其是百度,完全免費的介面

既然百度這麼仗義,咱們就不要浪費掉怎麼好的資源,從百度AI入手,開啟人工智慧之旅

開啟人工智慧技術的大門 : http://ai.baidu.com/

看看我大百度的AI大法,這些技術全部都是封裝好的介面,看著就爽

接下來咱們就一步一步的操作一下

首先進入控制檯,註冊一個百度的賬號(百度賬號通用)

開通一下我們百度AI開放平臺的授權

然後找到已開通服務中的百度語音

走到這裡,想必已經知道咱們要從語音入手了,語音識別和語音合成

開啟百度語音,進入語音應用管理介面,建立一個新的應用

建立語音應用App

就可以建立應用了,回到應用列表我們可以看到已建立的應用了

這裡面有三個值 AppID , API Key , Secret Key 記住可以從這裡面看到 , 在之後的學習中我們會用到

好了百度語音的應用已經建立完成了接下來我會用Python 程式碼作為例項進行應用及講解

一.安裝百度的人工智慧SDK:

首先咱們要 pip install baidu-aip 安裝一個百度人工智慧開放平臺的Python SDK實在是太方便了,這也是為什麼我們選擇百度人工智慧的最大原因

安裝完成之後就來測試一下:

在工程目錄下,就可以看到 s1.mp3 這個檔案了,來聽一聽

上面咱們測試了一個語音合成的例子,那麼就從語音合成開始入手

二.語音合成:

技術上,程式碼上任何的疑惑,都可以從官方文件中得到答案

baidu-aip Python SDK 語音合成技術文件 : https://ai.baidu.com/docs#/TTS-Online-Python-SDK/top

剛才我們做了一個語音合成的例子,就用這個例子來展開說明

先來看第一段程式碼

這是與百度進行一次加密校驗 , 認證你是合法使用者合法的應用

AipSpeech 是百度語音的客戶端認證成功之後,客戶端將被開啟,這裡的client 就是已經開啟的百度語音的客戶端了

再來看第二段程式碼:

用百度語音客戶端中的synthesis方法,並提供相關引數

成功可以得到音訊檔案,失敗則返回一段錯誤資訊

重點看一下 synthesis 這個方法 , 從 https://ai.baidu.com/docs#/TTS-Online-Python-SDK/top 來獲得答案吧

從引數入手分析:

按照這些引數,從新發起一個語音合成

這次聲音是不是與一點點蘿莉了呢?

這都是語音語調的作用 0 - 9 其實就是御姐音 - 蘿莉音

這就是人工智慧中的語音合成技術,呼叫百度的SDK,只用了5分鐘,完成了1年的開發量,哈哈哈哈

一定要自己練習一下語音合成, 別把它玩兒壞了

三.語音識別:

哎,每次到這裡,我都默默無語淚兩行,聲音這個東西格式太多樣化了,如果要想讓百度的SDK識別咱們的音訊檔案,就要想辦法轉變成百度SDK可以識別的格式PCM

目前DragonFire已知可以實現自動化轉換格式並且屢試不爽的工具 : FFmpeg 這個工具的下載地址是 : 連結：https://pan.baidu.com/s/1jonSAa_TG2XuaJEy3iTmHg 密碼：w6hk

FFmpeg 環境變數配置:

首先你要解壓縮,然後找到bin目錄,我的目錄是 C:\ffmpeg\bin

然後以 windows 10 為例,配置環境變數

如果沒搞明白的話,我也沒有辦法了,這麼清晰這麼明白

嘗試一下,是否配置成功

看到這個介面就算配置成功了,配置成功有什麼用呢, 這個工具可以將wav wma mp3 等音訊檔案轉換為 pcm 無壓縮音訊檔案

做一個測試,首先要開啟windows的錄音機,錄製一段音訊(說普通話)

現在假設錄製的音訊檔案的名字為 audio.wav 放置在 D:\DragonFireAudio\

然後我們用命令列對這個 audio.wav 進行pcm格式的轉換然後得到 audio.pcm

命令是 : ffmpeg -y -i audio.wav -acodec pcm_s16le -f s16le -ac 1 -ar 16000 audio.pcm

然後開啟目錄就可以看到pcm檔案了

pcm檔案已經得到了,趕緊進入正題吧

百度語音識別SDK的應用:

前提是你的audio.pcm 要與你當前的檔案在同一個目錄,還是分段看一下程式碼

讀取檔案的內容,file_context 是 audio.pcm 檔案開啟的二進位制流

asr函式需要四個引數,第四個引數可以忽略,自有預設值,參照一下這些引數是做什麼的

第一個引數: speech 音訊檔案流建立包含語音內容的Buffer物件, 語音檔案的格式，pcm 或者 wav 或者 amr。(雖說支援這麼多格式,但是隻有pcm的支援是最好的)

第二個引數: format 檔案的格式,包括pcm（不壓縮）、wav、amr (雖說支援這麼多格式,但是隻有pcm的支援是最好的)

第三個引數: rate 音訊檔案取樣率如果使用剛剛的FFmpeg的命令轉換的,你的pcm檔案就是16000

第四個引數: dev_pid 音訊檔案語言id 預設1537（普通話輸入法模型）

再來看下一段程式碼,列印返回結果:

成功的dict中 result 就是我們要的識別文字

失敗的dict中 err_no 就是我們要的錯誤編碼,錯誤編碼代表什麼呢?

如果err_no不是0的話,就參照一下錯誤碼錶

到此百度AI語音部分的呼叫就結束了,是不是感覺很簡單

剛剛學完練習一下:

1.嘗試從語音識別中拿出result對應的中文

2.嘗試你說一句話,然後讓百度AI學你說話

3.嘗試使用對話的方式,得到你叫什麼名字,你今年幾歲了,這樣簡單問題的答案

語音識別語音合成

本節內容預備資料: 1.FFmpeg: 連結：https://pan.baidu.com/s/1jonSAa_TG2XuaJEy3iTmHg 密碼：w6hk 2.baidu-aip: pip install baidu-aip 終於進入主題了,此篇是人工智慧應用的

ROS 教程3 機器人語音語音識別理解合成控制 ASR NLU TTS

機器人語音語音識別理解合成控制 ASR NLU TTS github 一、語音處理總體框架 1. 語音識別（ASR ， Automatic Speech Recognition ） 2. 語義理解（NLU ， Natural Language Understan

Unity整合百度語音識別和合成--REST API

直接上unity的C#指令碼程式碼百度語音識別 using System.Collections; using System.Collections.Generic; using UnityEngine; using System.Xml; using

訊飛語音識別SDK整合語音識別語音合成訊飛英語識別

最近專案集成了訊飛語音識別功能，由此記錄簡單的整合流程 demo效果（logcat）資源下載 1、首先用as建一個model （這個不用介紹） 2、登入訊飛開發者平臺，進入控制檯，建立應用生成appid 1、建立應用

中國移動靈犀雲語音識別及合成SDK（iOS）使用指南

隨著智慧家居概念的火熱，語音互動這一新時代的人機互動方式再度掀起了熱潮。移動網際網路應用在設計開發時也紛紛考慮加入語音識別功能，帶給使用者除傳統鍵盤或觸控互動方式外的更便捷互動體驗。中國移動近日推出的“靈犀雲”，作為新一代的智慧語音雲平臺，正致力於為應用提供全方位的智慧語

C# 10分鐘完成百度語音技術（語音識別與合成）——入門篇

我們已經講了人臉識別（入門+進階）、圖片識別（入門）。下面是連結： C# 10分鐘完成百度人臉識別——入門篇 C# 30分鐘完成百度人臉識別——進階篇（文末附原始碼） C# 10分鐘完成百度圖片提取文字（文字識別）——入門篇今天我們來盤一盤語音識別與合成。 PS：僅供瞭解參考，如需進一步瞭解請繼續研究。我

人工智能-baidu-aip語音識別(語音轉文字)

mar 之前電腦的語音 ffmpeg spl inf http 技術做這個之前,需要在電腦上安裝FFmpeg工具,將要轉的語音格式轉為PCM格式.FFmpeg不需要安裝,下載後,打開bin文件夾，然後將路徑放在系統環境變量裏.記住,要關閉所有打開的Pycharm,然後

人工智能-語音合成-語音識別

AC app appid document pre aip instance class OS 圖靈機器人： http://www.tuling123.com 百度開發平臺： http://ai.baidu.com/ 下載 baidu-ap

unity 對接訊飛window平臺語音識別，語音合成記錄

最近記性越來越差，必須得把踩過的坑寫下來，防止重複踩坑的出現。主要參考了部落格：https://blog.csdn.net/qq_39993352/article/details/80545422和語音識別的案例原始碼：https://github.com/3wz/IFlySDKForUn

百度語音合成與語音識別api使用（Java版本）

百度語音合成與語音識別api使用（Java版本）百度語音合成官方文件：https://ai.baidu.com/docs#/TTS-Online-Java-SDK/top 百度語音識別官方文件：https://ai.baidu.com/docs#/ASR-Online-

python實現人工智慧之路--語音識別加語音合成

程式碼如下 from aip import AipSpeech import os APP_ID = '14940732' API_KEY = 'tm1jAzv8dnDQM5yzFUk0ED9j' SECRET_KEY = '2WsPOg8k7GHtPnN2PBIsuf9L

python實現人工智能之路--語音識別加語音合成

name lap ons nsa aud str play text not 代碼如下 from aip import AipSpeech import os APP_ID = ‘14940732‘ API_KEY = ‘tm1jAzv8dnDQM5yz

語音合成和語音識別

1、語音合成　　　　預先準備工作：　　　　安裝所需的依賴包　　　　1：pip install baidu-aip 　　　　2：百度雲建立語音合成專案，https://ai.baidu.com/ 　　 1 from aip import AipSpeech

百度雲實現語音識別及語音合成

第一步，點選人工智慧，語音合成，然後立即使用：然後再應用列表裡面建立應用：檢視技術文件，下面附上我的語音合成及識別的程式碼： from aip import AipSpeech """ 你的 APPID AK SK """ APP_ID = '1507967

Winform利用訊飛語音WebAPI實現線上語音合成、語音識別

閒來無事做的一個demo。本來想做成網站的形式，發現不知道怎麼在請求頭裡加資訊，於是就做成了Winform版的。去官網開通sdk 沒註冊的先要註冊，然後建立應用，應用平臺選擇webAPI 回到控制檯，新增新服務--線上語音合成、語音聽寫新增IP

118 falsk智慧機器人語音合成語音識別

主要內容: 部落格drogonfire部落格語音合成: ai.baidu.com.. 檢視文件的具體內容. 語音識別: ai.baidu.com.. 檢視文件的具體內容. 智慧機器人: www.tuling123.com from aip impo

118 falsk智能機器人語音合成語音識別

openapi return 博客 val nbsp ict ins use won 主要內容: 博客drogonfire博客語音合成: ai.baidu.com.. 查看文檔的具體內容. 語音識別: ai.baidu.com.. 查看文檔的具體內容. 智能機器人:

語音合成以及語音識別

AI開放平臺:http://ai.baidu.com/ 圖靈機器人:http://www.tuling123.com/ 語音合成以及語音識別: hecheng.py # 圖靈機器人 import requests url = "http://openapi.tulin

Python實現語音識別和語音合成

聲音的本質是震動，震動的本質是位移關於時間的函式，波形檔案(.wav)中記錄了不同取樣時刻的位移。通過傅立葉變換，可以將時間域的聲音函式分解為一系列不同頻率的正弦函式的疊加，通過頻率譜線的特殊分佈，建立音訊內容和文字的對應關係，以此作為模型訓練的基礎。案例：畫出語音訊號的波形和頻率分佈，（freq.w

Python人工智慧第一篇：語音合成和語音識別

Python人工智慧第一篇：語音合成和語音識別此篇是人工智慧應用的重點,只用現成的技術不做底層演算法,也是讓初級程式設計師快速進入人工智慧行業的捷徑。目前市面上主流的AI技術提供公司有很多,比如百度,阿里,騰訊,主做語音的科大訊飛,做只能問答的圖靈機器人等等。這些公司投入了很大一部分財力物力人力將底層封

語音識別語音合成

相關推薦