聲紋識別的發展綜述

阿新 • • 發佈：2020-10-10

聲紋識別的發展綜述

綜述

綜述

聲紋概念與用於識別的優勢

聲紋的概念：聲音就是一段波，聲紋就是攜帶了資訊的聲波頻譜。
為什麼可以用於識別？

聲紋不僅具有特定性，而且有相對穩定性的特點。成年以後，人的聲音可保持長期相對穩定不變，因此，它同指紋一樣，獨特的生物學特徵，可用於身份識別。
聲紋特徵對比其他生物學特徵更有優勢。

聲紋識別工作方式

聲紋識別在產品上的本質主要就是以下兩種工作方式： 1比1 和 1比N
在這裡插入圖片描述
工作流程大致如下：

提取語音，預處理，提取特徵

利用訓練好的模型，計算該語音對應的聲紋模型或者聲紋特徵
最後進行相似度打分，得到結果

由此我們可以看出聲紋識別主要就是三大部分：特徵，模型，得分。下面根據這三大要素分別闡述

聲紋識別三大部分：特徵，模型，得分

首先看下這三大部分的整體技術流派和技術發展路線
在這裡插入圖片描述

語音特徵介紹

在這裡插入圖片描述

聲紋模型的演進

傳統的聲紋識別主要是基於統計思想和概率論，結合聲學，訊號學，機器學習等演算法

2012年，跨入了以deep learning 為主線的演算法，DNN-based系統陸續出現，並基於深度學習領域的新思想持續改良

近兩年發展起來的End-to-End 端到端系統，代表：2018年穀歌百度的相關論文
在這裡插入圖片描述

基於深度學習的聲紋技術

在這裡插入圖片描述

上面的網路結構中，有一個Statistics Pooling Layer，負責將Frame-level Layer，Map到Segment-Level Layer，計算frame-level Layer的Mean和standard deviation。TDNN是時延架構，Output Layer可以學習到Long-Time特徵，所以x-vector可以利用短短的10s左右的語音，捕捉到使用者聲紋資訊，在短語音上擁有更強的魯棒性。
在這裡插入圖片描述

其他語音技術介紹

在這裡插入圖片描述

摘自知乎“巧克力工廠的查理”，用作學習總結。

聲紋識別的發展綜述

聲紋識別的發展綜述綜述聲紋概念與用於識別的優勢聲紋識別工作方式聲紋識別三大部分：特徵，模型，得分語音特徵介紹聲紋模型的演進基於深度學習的聲紋技術

tensorflow whl下載_使用Tensorflow實現聲紋識別

技術標籤：tensorflow whl下載tensorflow 語音識別前言本章介紹如何使用Tensorflow實現簡單的聲紋識別模型，首先你需要熟悉音訊分類，沒有了解的可以檢視這篇文章《基於Tensorflow實現聲音分類》。基於這個

專案使用encode_使用PaddlePaddle實現聲紋識別

技術標籤：專案使用encode 前言本章介紹如何使用PaddlePaddle實現簡單的聲紋識別模型，首先你需要熟悉音訊分類，沒有了解的可以檢視這篇文章《基於PaddlePaddle實現聲音分類》

華為等申請 “聲紋識別”專利：解決聲紋識別魯棒性低的問題

2月2日訊息企查查 App 顯示，近日，華為技術有限公司與崑山杜克大學共同申請了 “一種聲紋識別方法及裝置”專利資訊，申請公開日為 2021 年 1 月 29 日，公開號 CN112289325A。

【語音識別】基於matlab GUI聲紋識別【含Matlab原始碼 1022期】

一、簡介本文基於Matlab設計實現了一個文字相關的聲紋識別系統，可以判定說話人身份。

https://blog.csdn.net/u011930705/article/details/85340905 【kaldi】【kaldi】聲紋識別之X-vector聲紋識別之X-vector

一．搞了幾天，首先說一下X-vector的優勢： 1.訓練速度非常快 2.無需特定語種的訓練集，由於設定一個embedding層進行提取特徵直接進行plda打分

基於Pytorch實現的聲紋識別模型

https://github.com/yeyupiaoling/VoiceprintRecognition-Pytorch https://blog.csdn.net/qq_33200967 此版本為新版本，如想使用使用舊版本，請轉到V1.0版本，本專案使用了EcapaTdnn模型實現的聲紋識別，不排除