數字語音訊號處理學習筆記——緒論(1)
版權宣告:本文為博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/u013538664/article/details/25043707
1.緒論
1.1概述
語言是人類交換資訊最方便、最快捷的一種方式,在高度發達的資訊社會中,用數字化的方法進行語音的傳送、儲存、識別、合成和增強等是整個數字化通訊網中最重要、最基本的組成部分之一。
語音訊號處理技術主要可以應用到:
1) 數字電話通訊
2) 高音質的窄帶語音通訊系統
3) 語言學習機
4) 聲控打字機
5) 自動翻譯機
6) 智慧機器人
7) 新一代計算機語音智慧終端
8) 許多軍事上的應用
語音訊號處理是一門新興的邊緣科學,它是語音學與數字訊號處理兩個學科相結合的產物。它和認知科學、心理學、語音學、電腦科學、模式識別和人工智慧等學科有著緊密的聯絡。
語音訊號處理的目的是要得到某些語音特徵引數以便高效地傳輸或儲存;或者是通過某種處理運算以達到某種用途的要求,例如人工合成語音、辨識出講話者、識別出講話的內容等。
隨著現代科學和計算機技術的發展,除了人與人之間的自然語言的通訊方式之外,人機對話及智慧機器等領域也開始使用語言。通常認為,語音資訊的交換大致上可以分為三大類:
1) 人與人之間的語音通訊:包括語音壓縮與編碼、語音增強等
2) 第一類人機語言通訊問題,指的是機器講話、人聽話的研究,即語音合成
3) 第二類人機語音通訊問題,指的是人講話、機器聽話的情況,即語音識別和理解
1.2 語音訊號處理的發展
1876年:貝爾電話的發明,該技術首次用聲電、電聲轉換技術實現了遠距離的語音傳輸。
1939年:Homer Dudley提出並研製成功的第一個聲碼器,從此奠定了語音產生模型的基礎。
19世紀60年代:亥姆霍茲應用聲學方法對母音和歌唱進行了研究,從而奠定了語言的聲學基礎。
20世紀40年代:一種語言聲學的專用儀器——語譜圖儀問世了。
1948年:美國Haskins實驗室研製成功“語音回放機”,該儀器可以把手工繪製在薄膜上的語譜圖自動轉換成語音, 並進行語音合成
20世紀50年代:語言產生的聲學理論開始有了系統的論述。
隨著計算機的出現,語音訊號處理的研究工作得到了計算機技術的幫助,使得過去受人力、時間限制的大量的語音統計分析工作,得以在電子計算機上進行。在此基礎上,語音訊號處理不論在基礎研究方面,還是在技術應用方面,都取得了突破性的發展。
下面分別論述語音訊號處理的三個主要分支(語音合成技術、語音編碼和語音識別技術)的發展和現狀。
1.2.1 語音合成
最早的合成器:
1835年:W.von Kempelen發明,經Weston改進的機械式會講話的機器。該機器完全模仿人的發音生理過程,分別用風箱、特別設計的哨和軟管來模擬肺部的空氣動力、模擬口腔。
最早的電子式語音合成器:
1939年:Homer Dudley發明的聲碼器,它不是簡單地模擬人的生理過程,而是通過電子線路來實現基於語音產生的源-濾波器理論。
但真正具有實用意義的近代語音合成技術是隨著計算機技術和數字訊號處理技術的發展而發展起來的,主要是採用計算機產生高清晰度、高自然度的連續語音。
早期的研究主要採用引數合成方法:
1973年:Holmes發明的並聯共振峰合成器
1980年:Klatt發明的串/並聯共振峰合成器
最具代表性的文字轉換系統:
1987年:美國DEC公司的DECtalk
自20世紀80年代末期至今,語音合成技術又有了新的進展,特別是1990年提出的基因同步疊加(PSOLA)方法,使基於時域波形拼接方法合成的語音的音色和自然度大大提高。
20世紀90年代:基於PSOLA技術的法語、德語、英語、日語等語種的文語轉換系統都已經研製成功。
我國的漢語語音合成研究起步較晚,但從20世紀80年代初就基本上與國際研究同步發展。大致也經歷了共振峰合成、LPC合成到應用PSOLA技術的過程。
現階段語音合成的最大進展是已經能實時地將任意文字轉換成連續可懂的自然語句輸出。
---------------------
作者:JameJuZhang
來源:CSDN
原文:https://blog.csdn.net/jojozhangju/article/details/25043707
版權宣告:本文為博主原創文章,轉載請附上博文連結!