1. 程式人生 > >筆記摘錄:2018.05.12---基礎概念

筆記摘錄:2018.05.12---基礎概念

僅供自己學習參考,若有侵權,請聯絡[email protected]

說話人語音訊號產生原理:

聲音散發出來後表現成一種隱形波的形式,經過波的傳播,這種聲音就可以被人耳發覺,這種波的振動頻率的範圍劃分在 20Hz-100k Hz 的區間裡。人類生存的大自然中包含各種各樣的聲音,就像我們所熟悉的颳風聲、打雷聲、下雨聲、撞擊聲、鳴笛聲等。而說話人發出的語音訊號也屬於聲音的一種,歸類在人的發音器官發出的、附帶一定的語法和語義的聲音的範疇。語音的振動頻率最高可達 25kHz。喉嚨部位的聲帶對人們發出聲音的影響是很大的,它可以為語音的形成提供一種很及時的激勵源:聲帶只要發生振動,之後就會產生聲音。聲帶分為左右聲帶,而處於兩聲帶部位的部分叫做聲門。人們呼吸時,左右聲帶呈現開啟的狀態,講話的時候,兩聲帶則恢復到閉合的狀態。當人們在說話的時候,處於合攏狀態的聲帶由於受到了聲門裡的氣流的衝擊作用,就會由閉合的狀態向張開狀態進行轉換。又因為聲帶具有很強的韌性,這一屬性導致聲帶緊接著發生迅速閉合的現象,隨後又張開接著又閉合。這種往復閉合和張開的過程使得氣流形成了一系列的脈衝訊號,之後再通過空氣將聲音傳送到對方的耳朵裡。每一次的張開和閉合的過程所用的時間就被稱為是基音的週期,把週期取倒數就得到了基音的頻率,簡稱基頻。在人類語言學的範疇裡,規定基頻的範圍處在 80-500Hz 之間,它是隨著說話人的性別,年齡以及說話時所在的環境等條件的變化而變化,語音學統一認為女人和小孩的基頻要小於男人。 在聲帶振動和不振動的情況下都會產生對應的語音,其中規定因為聲帶的振動而產生的聲音叫做濁音,那些沒有經過聲帶的振動而產生的聲音就叫做清音。語音學裡還規定,所有的母音和一少部分子音都屬於濁音的範疇;另外剩下的一大部分的子音就被劃分在了清音的範圍裡。當空氣在肺部流動後就會形成一定的氣流,然後氣流經過聲帶的時候,倘若聲帶此時處在緊繃的狀態,它就會立刻先張弛然後再振動,如此以來就形成了週期性的張開和閉合。聲帶開啟的時候,氣流就會立即從聲門部位噴射出來,進而就可以形成一個脈衝;聲帶閉合的時候,脈衝序列處在間歇期,因而在聲門的位置就會隨之產生一個空氣流,這種氣流屬於表現週期性的脈衝序列,一個個脈衝序列經過聲道後再從嘴脣發射出相應的聲波,穿過空氣再形成聲音。

不同的聲音激勵源就會產生不同的聲音型別,就像濁音、清音和爆破音的激勵源是互不相同的,濁音的形成來自處於聲門處的週期性的脈衝序列;清音的形成來自位於聲道區的某一個收縮區域下的空氣湍流;爆破音是由位於聲道的某一個閉合點處形成的氣壓以及這種氣壓的突然釋放所產生的。

專業術語

       瞭解專業術語,是為了讓產品與設計和研發更好更有效的溝通,可以有效降低溝通成本;對於專業術語所代表的知識,我們需要了解它的含義、原理、要求、侷限等等,可以有效幫助我們在產品設計上做得更好;

1、訊號處理,提取我們所需要的聲音的過程,根據不同的行業、不同的硬體、不同的場景等等,這個過程都會有不同的表現,在語音產品裡,這個階段往往會被產品忽略,它很關鍵,是所有語音互動的開始,意味著,如果這個做得不好,就不用再談什麼語音體驗了;

2、語音識別(ASR),現在很多人會把語音識別等同看成整個語音產品,語音識別主要指的是語音轉寫成文字的過程;

3、自然語言處理(NLP),語言的理解、處理、生成的全過程,這裡比較被人忽略和遺忘的是“語言生成”這個過程,這是產品細節裡最為繁雜的工作之一;

4、語音合成(TTS),主要是將文字合成出音訊,之後播報出來;

5、對話管理(DM),主要是管理和定製語音的對話邏輯(語音互動流程),這是業內比較火的用於建立技能服務(Skill Service,或者也有叫領域服務)的平臺的基礎, 可以定製出自己想要的互動流程;


音素(phone,是語音中的最小的單位,依據音節裡的發音動作來分析,一個動作構成一個音素。音素分為母音、子音兩大類。如漢語音節

ā(啊)只有一個音素,ài(愛)有兩個音素,dāi(呆)有三個音素等。音節在語音學上指由一個或數個音素組成的語音結構基本單位;而音素是最小的語音單位。 [1] 普通話,由三個音節組成,可以分析成“p, u, t, o, ng, h, u, a”八個音素。

32個漢語音素b p m f d t n l g k h j q x z c s zh ch sh r ng a o e i u ü ê 舌面母音;-i [zi] -i [zhi] er舌尖母音

英語音素:即48個音素。

首先,20母音音素,分為單母音和雙母音。

12個單母音。按發音部位把單母音分為前母音:/iː/ /ɪ/ /e/ /æ/中母音/ɜː/ /ə/後母音/ɑː/ /ʌ/ /ɔː/ /ɒ//uː//ʊ/(這裡採用的是RP發音音標,像一些典型美式音標未給出,如/ɝː/ /ɚ/)。母音可以根據母音高度(即舌面與上齶的距離)大小程度依次學習。如後母音:/ɑː/·/ɒ//ʌ/·/ɔː//ʊ//uː/母音高度依次由低到高。

8雙母音合口雙母音/aɪ/ /eɪ/ /aʊ/ /əʊ/ /ɔɪ/集中雙母音/ɪə/ /eə/ /ʊə/

然後是28個子音音素,分為清子音和濁子音,其中十個清子音與十個濁子音恰好成對。

清子音 /p/ /t/ /k/ /f/ /s/ /θ/ /ʃ/ /tʃ/ /ts/ /tr/

濁子音: /b/ /d/ /g/ /v/ /z/ /ð/ /ʒ/ /dʒ/ /dz/ /dr/

然後剩下的幾個音標:/m//n//l//ŋ//h//r//j//w/

相關推薦

筆記摘錄2018.05.12---基礎概念

僅供自己學習參考,若有侵權,請聯絡[email protected] 說話人語音訊號產生原理: 聲音散發出來後表現成一種隱形波的形式,經過波的傳播,這種聲音就可以被人耳發覺,這種波的振動頻率的範圍劃分在 20Hz-100k Hz 的區間裡。人類生存的大自然中包含

伯克利教授Stuart Russell人工智能基礎概念與34個誤區

you 編譯 問答 review 有用 足夠 治療 態度 發現 伯克利教授Stuart Russell:人工智能基礎概念與34個誤區 機器之心 9 個月前 機器之心 Russell 是加州大學伯克利分校人工智能系統中心創始人兼計算機科

第169天面向對象基礎概念(有待完善)

spa 所有 col 工具實現 一起 pos 統一管理 body new 1、函數 (1)函數就是一個工具,我們只需要學會使用工具實現某個功能 (2)封裝性 函數——面向對象 函數——工具 對象——工具包(把類似的功能放在一起管理) 工具:函數——方法 2、對象 對象就是

2018-05-12 Linux學習

Linux學習15.4 xshell使用xftp傳輸文件 Ctrl+Alt+f 15.5 使用pure-ftpd搭建ftp服務 yum install -y epel-releaseyum install -y pure-ftpdvim /etc/pure-ftpd/pure-ftpd.conf //找

筆記摘錄Unicode、核心物件

第一章   對程式錯誤的處理 1、若要確定是什麼錯誤,請呼叫GetLastError函式:該函式只返回執行緒的32位錯誤程式碼。 2、Visual studio還配有一個小的實用程式稱為Error Lookup,可以使用Error Lookup將錯誤程式碼的號碼轉換成相應文字描述。

【django3】Django學習筆記3Model,Template,View 基本概念

轉載:http://www.cnblogs.com/weichsel/archive/2012/10/16/2725554.html,侵權必刪 總體結構         Django是MTV結構,即:Model, Template, View &nb

學習Python第一天(筆記2)201812月11號

存一波Python的33個保留字: and as assert break class continue def elif else except finally for from if import in is lambda not or pass raise return try whi

CNTK與深度強化學習筆記之一 環境搭建和基本概念

如需轉載,請指明出處。 前言 深度強化學習是人工智慧當前的熱點,CNTK也是微軟力推的深度學習框架,2.x版本比之前有了長足的進步。目前國內將這兩者融合起來的文章還不多。因此寫作了這個學習筆記,希望能對大家有所幫助。 硬體,開發環境以及CNTK安裝 CN

動態規劃演算法(連續子陣列最大和,O(N)時間複雜度O(1)空間複雜度) 【更新於2018-05-13】

這個題目最早在13年阿里筆試出現,直到前兩天面試另一家電商又出現,哎,欠的都是要還的。 這個問題的思路如下:一維陣列的下標連續的元素構成連續子陣列,求所有連續子陣列中和最大的那個子陣列。 解析:2018-11-08 1 首先這個問題要轉化為Q(n)的問題,對於Q(n)的

【extjs6學習筆記】0.1 準備基礎概念(02)

json over cal 類的屬性 tab 常用事件 data 微軟 基於 Ext 類 Ext 是一個全局單例的對象,在 Sencha library 中它封裝了所有的類和許多實用的方法。許多常用的函數都定義在 Ext 對象裏。它還提供了像其他類中一些頻繁使用的方法

2018.05.05 C與C++】C++中的自動廢料收集概念與問題引入

自己 ont 大量 閱讀 帶來 int OS 修改 htm 在閱讀C++語言的設計與演化一書時,作者多次提到希望能設計出一個自動廢料收集,然而出於種種考慮,始終未將自動廢料收集納入標準討論中,而是由Coder自己考慮是否在程序中實現廢料收集。 當然了,許多Java-Code

2018-05-30筆記(Linux shell基礎知識)

LINUX第八章 shell基礎 8.1 shell介紹 在計算機科學中,Shell俗稱殼(用來區別於核),是指“提供使用者使用界面”的軟件(命令解析器)。它類似於DOS下的command.com和後來的cmd.exe。它接收用戶命令,然後調用相應的應用程序。同時它又是一種程序設計語言。作為命令語言,它交互式

Spring AOP學習筆記(一)基礎概念

AOP產生背景 AOP(Aspect Oriented Programming),即面向切面程式設計,可以說是OOP(Object Oriented Programming,面向物件程式設計)的補充和完善。OOP引入封裝、繼承、多型等概念來建立一種物件層次結構,用於模擬公共行為的一個集合。不

TensorFlow學習筆記01基礎概念

首先祝自己生日快樂!! 在這個時間點愉快地開始一個新的學習過程,希望自己能堅持下去。 首先了解一下TensorFlow中的一些基礎概念: 基礎概念 計算圖(graph) 這是TensorFlow中最為重要的概念,整個TensorFlow是一個通過計算圖的形式

Cocos2d-x學習筆記(2017.05.12更新)

1.參考連結彙總 2.建立Sprite auto bg = Sprite::create("level-background-0.jpg"); bg-&g

白日夢的ES筆記萬字長文 Elasticsearch基礎概念統一掃盲

[TOC] ### 一、導讀 本篇是白日夢的第三篇ES筆記,前面已經跟大家分享過兩篇ES筆記了,分別是: [ES基礎篇--快速上手ES](https://mp.weixin.qq.com/s/vpx-YztORgqROzPIL3_yig) [ES進階篇--50個檢索、聚合案例](https://mp

nodejs零基礎詳細教程1安裝+基礎概念

img res 安裝過程 pkg 實時 linkedin 圖標 過程 好的 第一章 建議學習時間2小時 課程共10章 學習方式:詳細閱讀,並手動實現相關代碼 學習目標:此教程將教會大家 安裝Node、搭建服務器、express、mysql、mongodb、編寫後臺業務邏輯

Linux同步與相互排斥應用(零)基礎概念

使用 line 關系 並發執行 來看 文章 必須 生產者 而且 【版權聲明:尊重原創,轉載請保留出處:blog.csdn.net/shallnet 或 .../gentleliu,文章僅供學習交流,請勿用於商業用途】 當操作系統進入多道批處理

framework7學習筆記基礎知識

部分 cnblogs query 基礎 logs code 自己 $$ pan 一:DOM7 framework7有自己的 DOM7 - 一個集成了大部分常用DOM操作的高性能庫。它的用法和jQuery幾乎是一樣的,包括大部分常用的方法和jquery風格的鏈式調用。 在開發

粵嵌java培訓第一天筆記-java基礎概念

ont 類型 運算符 按位或 次循環 規則 是否 支持 har 一、二進制數   1、最高位為0,表示正數;最高位為1,表示負數。   2、相應的負數與正數之間進行轉換方式:通過補碼方式進行轉換,即:取反再加1。     例如:0000 0001 表示 +1;通過對 000