語音識別框架

阿新 • • 發佈：2018-11-20

一、語音識別框架

傳統理論重點研究聲學模型，發音字典不用關心，語言模型一般用n-gram

預處理：1. 首尾端的靜音切除，降低對後續步驟造成的干擾，靜音切除的操作一般稱為VAD。

2. 聲音分幀，也就是把聲音切開成一小段一小段，每小段稱為一幀，使用移動窗函式來實現，不是簡單的切開，各幀之間一般是有交疊的。

特徵提取：主要演算法有線性預測倒譜系數（LPCC）和Mel 倒譜系數（MFCC），目的是把每一幀波形變成一個包含聲音資訊的多維向量；

聲學模型（AM）：通過對語音資料進行訓練獲得，輸入是特徵向量，輸出為音素資訊；

字典：字或者詞與音素的對應，

簡單來說， 中文就是拼音和漢字的對應，英文就是音標與單詞的對應；

語言模型（LM）：通過對大量文字資訊進行訓練，得到單個字或者詞相互關聯的概率；計算所有可能性的概率，求對應的最大概率值的索引。即輸出文字。

語音識別流程的舉例（只是形象表述，不是真實資料和過程）：

1. 語音訊號：PCM檔案等（我是機器人）

2. 特徵提取：提取特徵向量[1 2 3 4 5 6 0 ...]

3. 聲學模型：[1 2 3 4 5 6 0]-> w o s i j i q i r n重點

4. 字典：窩：w o；我：w o；是：s i；機：j i；器：q i；人：r n；級：j i；忍：r n；

5. 語言模型：我：0.0786，是： 0.0546，我是：0.0898，機器：0.0967，機器人：0.6785；

計算所有可能性的概率，求對應的最大概率值的索引。

6. 輸出文字：我是機器人

原文：https://blog.csdn.net/nsh119/article/details/79360778

二、聲學模型

聲學模型：某音素組合條件下對應聲學特徵的概率值。反過來也可以通過概率值求索引，即特徵到音素的對映。傳統的為HMM-GMM模型，發展為NN，深度NN模型。

下圖為聲學模型框架。

https://blog.csdn.net/abcjennifer/article/details/27346787

聲學模型的輸入是由特徵提取模組提取的特徵（MFCC等）。一般來說，這些特徵是多維的向量。由於語音訊號特徵的分佈並不能用簡單的概率分佈，故而常用混合高斯模型方法對語音訊號的分佈進行擬合。引數由E-M演算法求得。對聲音序列O，進行GMM擬合，每一個GMM為HMM的一個狀態，計算狀態的概率值，通過搜尋演算法求得最大概率值對應的索引即音素序列。

注：狀態的理解。狀態通過對聲音想、特徵序列O進行GMM擬合或者DNN等擬合求得。如果聲學模型輸出的是音素，狀態應該理解為比音素更小的級別，如3個狀態對應一個音素；

https://blog.csdn.net/T7SFOKzorD1JAYMSFk4/article/details/79069909。如果聲學模型輸出的是拼音如（zhong），狀態應該理解為音素zh和ong等，或者其他聲學單元。即狀態為構成輸出的更低一級別的單元。

中文音素。

發音單元可以看成單因素加聲調、考慮協同發音等等

語言模型：給定輸入序列，計算序列的概率。

對於一個服從某個未知概率分佈P的語言L，根據給定的語言文字樣本估計P的過程被稱作統計語言建模。

在語音識別中，如果識別結果有多個，則可以根據語言模型計算每個識別結果的可能性，然後挑選一個可能性較大的識別結果。

包含：統計語言模型和神經網路語言模型。統計語言模型將詞或者詞彙，看成一個個體。神經網路語言模型也可以實現傳統的語言模型。最重要的是詞向量的提出。

統計語言模型

2元模型：

用最大似然估計計算上述概率

問題：

加入開始和結束標誌。

資料匱乏（稀疏）(Sparse Data)引起零概率問題，如何解決？資料平滑

分子加1，分母加詞彙量

不管訓練語料規模多大，對於二元語法和三元語法而言，Kneser-Ney平滑方法和修正的Kneser-Ney平滑方法的效果都好於其它所有的平滑方法

基於快取的語言模型（cache-based LM） 

基於混合方法的語言模型 

基於最大熵的語言模型

決策樹語言模型等

係數由E-M演算法求得

評價指標：

具體應用，如語音識別的表現等，

困惑度：基於該語言模型，求得的測試集的概率值的越大越好。對應的困惑度越小越好。

仍然是現今語音識別系統第一遍解碼的首選模型  研究熱點：基於N元文法語言模型平滑演算法的研究

N元模型主要研究各種平滑演算法。

神經網路語言模型：

用NN實現統計語言模型。

訓練RNN網路計算每一個句子的概率

詞向量的提出

端對端的理解：

中英文的區別：

中英文的音素不同，發音字典不同。如英文的音素k在發音字典可以是c,k;中文的音素組成的拼音shi4可以為世，事，是等。還需要語音模型計算實際的輸出。

端對端不用考慮聲學模型、發音字典、語音模型等，直接完成聲音特徵序列到文字序列的轉換。

Python 語音識別框架

Python 語音識別框架 wobiji.net from win32com.client import constants import os import win32com.client import pythoncom speaker = win32com.c

語音識別框架

一、語音識別框架傳統理論重點研究聲學模型，發音字典不用關心，語言模型一般用n-gram 預處理：1. 首尾端的靜音切除，降低對後續步驟造成的干擾，靜音切除的操作一般稱為VAD。 2. 聲音分幀，也就是把聲音切開成一小段一小段，每小段稱為一幀，使用移動窗函式來

iOS10語音識別框架SpeechFramework應用

一、引言iOS10系統是一個較有突破性的系統，其在Message，Notification等方面都開放了很多實用性的開發介面。本篇部落格將主要探討iOS10中新引入的SpeechFramework框架。有個這個框架，開發者可以十分容易的為自己的App新增語音識別功能，不需要再

基於android的語音識別

wifi listview appid stat perm state c語音 utility extend 1.註冊賬戶，添加應用 2.針對android平臺的選擇應用，下載SDK 3.將SDK的libs下文件拷貝到工程的libs目錄下 4.添加用戶權限

語音識別之初體驗

實時 popu 背景 pcc 詞匯原則分類 work 通過一、概述作為最自然的人機交互方式－－語音，正在改變人們的生活，豐富多媒體技術的應用。語音識別技術是語音信號處理的一個重要分支，也是近年來非常火的一個研究領域。隨著科技的飛速發展，語音識別不僅在桌面PC和

94、tensorflow實現語音識別0,1,2,3,4,5,6,7,8,9

結果 test amp building pre cti fun ner edi ‘‘‘ Created on 2017年7月23日 @author: weizhen ‘‘‘ #導入庫 from __future__ import division,print_func

iOS中語音識別功能／語音轉文字教程具體解釋韓俊強的博客

rdd tex forkey dex errortype map pin ins prop 原文地址：http://blog.csdn.net/qq_31810357/article/details/51111702前言：近期研究了一下語音識別，從百度語音識別到訊飛語音

語音識別（SR）的秘密

天上掉餡餅 mar 天上的人 spa 谷歌 pos bottom 微軟語音識別（SR）功能是當今國外操作系統的標準特征，而國產操作系統根本不具備這樣的特質，並且國家隊沒有相關的主觀動力。去開發實際可用的語音識別系統。與國外相比，國

語音識別概述

nod 參考 ges idt tomat sphinx sta 系統 node 後驗概率最大，即為判別結果 HTK Hvite解碼器 Sphinx解碼器 TODE解碼器，生硬，修改繁瑣。 WFST 擴充，簡單高效。有限狀態機模型被用於大詞匯量連續中文語音識別系統中

[轉]Kaldi語音識別

位置系統 tex 文件夾設備要去 ogl 詞典 -s 轉：http://ftli.farbox.com/post/kaldizhong-wen-shi-bie Kaldi語音識別 1.聲學建模單元的選擇 1.1對聲學建模單元加入位置信息 2.輸入特征 3.區分性

樹莓派學習——語音識別和語音朗讀

百度 fpm url .com http 樹莓派 .net method ech 語音識別是基於百度語音REST aip-python-sdk-1.6.0，樹莓派上已安裝pycurl，mplayer。 1：註冊賬號，獲取token 2：提交語音相關信息 3：處理返回的Jso

語音識別完成詩句的查詢功能，iOS AVSpeechSynthesis語音輸出結果的詩歌APP

water 兩個 min 介紹 ech fin com esp log 前言當前的APP的查詢都是使用手動輸入，不僅效率低，而且查詢的語句的限制比較大，不能夠方便的擴展。如果能方便的擴展查詢語句，那麽APP的使用就會有很大的靈活性。可以設計各種問句和語句，可以方便的和用

小程序語音紅包中遇到的語音識別silk轉wav格式如何在線轉或者mp3轉wav格式

小程序微信小程序在線如果 phpe 錄音紅包什麽解決公司在開發一個小程序語音紅包，現在遇到的問題就是通過微信的小程序文檔接口拿到的錄音文件要麽是silk格式的，要麽是mp3格式的但是呢，如果要調用百度的語音接口，又必須是wav格式的。也就是說通過

微信小程序語音識別開發過程記錄微信小程序silk轉mp3 silk轉wav 以及ffmpeg使用

結果 asr 需要轉碼折騰發微信語音識別 ocs wav 說說最近在開發微信小程序語音識別遇到的問題吧最先使用微信小程序錄音控件可以拿到silk格式，後來微信官方又支持mp3格式了但是我們拿到這些格式以後，都還不能直接使用，做語音識別，因為目前百度的語

openFace 人臉識別框架測試

找不到設置 min don infer reat 每一個 href dir openface 人臉識別框架但個人感覺精度還是很一般 openface的githup文檔地址：http://cmusatyalab.github.io/openface/ openfa

C#語音識別用法實例

sha 進程的語音第一個字符 zone 發音 speech 單詞 win 本文實例講述了C#語音識別用法。分享給大家供大家參考。具體分析如下： C#可以利用微軟操作系統自動的語音識別功能，讀取信息。步驟如下： 1. 在項目中添加 “” 引用 2. 引入命名空間

Unity中使用百度中文語音識別功能

來源 openapi ner key nbsp 語音識別 ann .text esp 下面是API類 Asr.cs using System; using System.Collections; using System.Collections.Generic;

iOS：百度長語音識別具體的封裝：識別、播放、進度刷新

stat app span nsdata cst 放音 datawit har resp 一、介紹以前做過訊飛語音識別，比較簡單，識別率很不錯，但是它的識別時間是有限制的，最多60秒。可是有的時候我們需要更長的識別時間，例如朗誦古詩等功能。當然訊飛語音也是可以通過曲線救

python調用百度語音（語音識別-鬥地主語音記牌器）

receive idt 本地文件 file post 最終 callback import pri 一、概述本篇簡要介紹百度語音語音識別的基本使用（其實是鬥地主時想弄個記牌器又沒money，抓包什麽的又不會，只好搞語音識別的了）二、創建應用打開百度語

語音識別學習資料入門整理

語音識別 AI GMM-HMM語音識別模型原理篇隱馬爾科夫模型-HMM-A Tutorial On Hidden Markov Models 0.概念：語音信號處理/模式識別/統計分析， 1.算法: 常用的深度學習算法，包括 cnn/dnn/rnn/lstm;GMM/SVM/CRF/MaxEn

語音識別框架

相關推薦