1. 程式人生 > >語音識別(1)---語音識別(ASR)評估指標-WER(字錯誤率)和SER(句錯誤率)

語音識別(1)---語音識別(ASR)評估指標-WER(字錯誤率)和SER(句錯誤率)

語音識別(ASR)評估指標-WER(字錯誤率)和SER(句錯誤率)

前言

實際工作中,一般識別率的直接指標是“WER(詞錯誤率,Word Error Rate)”

定義

WER 字錯誤率句錯誤率

為了使識別出來的詞序列和標準的詞序列之間保持一致,需要進行替換、刪除或者插入某些詞,這些插入、替換或刪除的詞的總個數,除以標準的詞序列中詞的總個數的百分比,即為WER。

公式為: 這裡寫圖片描述

Substitution——替換

Deletion——刪除

Insertion——插入

N——單詞數目

SER

SER,SER表述為句子中如果有一個詞識別錯誤,那麼這個句子被認為識別錯誤,句子識別錯誤的的個數,除以總的句子個數即為SER

其計算公式如下所示: 這裡寫圖片描述

注意事項

  1. WER可以分男女、快慢、口音、數字/英文/中文等情況,分別來看。

  2. 因為有插入詞,所以理論上WER有可能大於100%,但實際中、特別是大樣本量的時候,是不可能的,否則就太差了,不可能被商用。

  3. 站在純產品體驗角度,很多人會以為識別率應該等於“句子識別正確的個數/總的句子個數”,即“識別(正確)率等於96%”這種,實際工作中,這個應該指向“SER(句錯誤率,Sentence Error Rate)”,即“句子識別錯誤的個數/總的句子個數”。不過據說在實際工作中,一般句錯誤率是字錯誤率的2~3倍,所以可能就不怎麼看了