1. 程式人生 > >語音識別學習筆記(一)【概述】

語音識別學習筆記(一)【概述】

語音識別學習筆記(一)【概述】

 

  1. 概述: 
    1)語音識別是機器通過識別和理解過程把人類的語音訊號轉變成相應的文字或命令的技術。 
    2)集 聲學、語音學、計算機、資訊處理、人工智慧等於一身的綜合技術。
  2. 難點: 
    1)語音特徵隨與之相連的語音的不同而產生很大變化,且連續語音中各單位之間無明顯邊界; 
    2)語音特徵隨發音人生理和心理狀態的變化而產生很大差異; 
    3)環境噪聲和傳輸裝置的差異也將影響特徵的提取; 
    4)語義理解帶來的困難,如語句表達的意思和上下文,文化背景等相關。
  3. 分類: 
    (1)識別:說話人識別和語音識別 
    (2)說話人識別: 
    1)從識別技術看:文字無關和文字相關; 
    2)從用途看:說話人辨認和說話人確認。 
    (3)語音識別: 
    1)按詞彙量大小:小詞彙量(10~100個)、中詞彙量(100~500個)和大詞彙量(500以上); 
    2)按發音方式:孤立詞識別、連線詞識別、連續語音識別和關鍵詞檢出; 
    孤立詞識別: 
    連線詞識別: 
    連續語音識別: 
    關鍵詞檢出: 
    3)按說話人:特定說話人和非特定說話人。 
    4)按語音識別方法:模板匹配法、隨機模型法和概率語法分析法。

  4. 識別過程:

這裡寫圖片描述