1. 程式人生 > 實用技巧 >聲紋識別的發展綜述

聲紋識別的發展綜述

聲紋識別的發展綜述

綜述

聲紋概念與用於識別的優勢

聲紋的概念:聲音就是一段波,聲紋就是攜帶了資訊的聲波頻譜。
為什麼可以用於識別?

  1. 聲紋不僅具有特定性,而且有相對穩定性的特點。成年以後,人的聲音可保持長期相對穩定不變,因此,它同指紋一樣,獨特的生物學特徵,可用於身份識別。
    在這裡插入圖片描述
  2. 聲紋特徵對比其他生物學特徵更有優勢。在這裡插入圖片描述

聲紋識別工作方式

聲紋識別在產品上的本質主要就是以下兩種工作方式: 1比1 和 1比N
在這裡插入圖片描述
工作流程大致如下:

  1. 提取語音,預處理,提取特徵
  2. 利用訓練好的模型,計算該語音對應的聲紋模型或者聲紋特徵
  3. 最後進行相似度打分,得到結果
    在這裡插入圖片描述
    由此我們可以看出聲紋識別主要就是三大部分:特徵,模型,得分。下面根據這三大要素分別闡述

聲紋識別三大部分:特徵,模型,得分

首先看下這三大部分的整體技術流派和技術發展路線
在這裡插入圖片描述

語音特徵介紹

在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述

聲紋模型的演進

傳統的聲紋識別 主要是基於統計思想和概率論,結合聲學,訊號學,機器學習等演算法

2012年,跨入了以deep learning 為主線的演算法,DNN-based系統陸續出現,並基於深度學習領域的新思想持續改良

近兩年發展起來的End-to-End 端到端系統,代表:2018年穀歌百度的相關論文
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述


在這裡插入圖片描述
在這裡插入圖片描述

基於深度學習的聲紋技術

在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述
上面的網路結構中,有一個Statistics Pooling Layer,負責將Frame-level Layer,Map到Segment-Level Layer,計算frame-level Layer的Mean和standard deviation。TDNN是時延架構,Output Layer可以學習到Long-Time特徵,所以x-vector可以利用短短的10s左右的語音,捕捉到使用者聲紋資訊,在短語音上擁有更強的魯棒性。
在這裡插入圖片描述

其他語音技術介紹

在這裡插入圖片描述
在這裡插入圖片描述
摘自知乎“巧克力工廠的查理”,用作學習總結。