1. 程式人生 > 其它 >人聲識別之webrtcvad

人聲識別之webrtcvad

1. 簡介

2. python中安裝以及使用

  • 直接pip進行安裝
pip install webrtcvad
  • 使用
# 建立一個 Vad 物件:
import webrtcvad
vad = webrtcvad.Vad()

# 可選地,設定它的攻擊性模式,它是一個介於 0 和 3 之間的整數。0 是過濾非語音的最不積極的,3 是最積極的。 (您也可以在建立 VAD 時設定模式,例如 vad = webrtcvad.Vad(3)):
vad.set_mode(1)

# 給它一小段(“幀”)的音訊。 WebRTC VAD 僅接受 16 位單聲道 PCM 音訊,取樣頻率為 8000、16000、32000 或 48000 Hz。 幀的持續時間必須為 10、20 或 30 毫秒:

# 在 10 毫秒的靜默狀態下執行 VAD。 結果應該是False。
sample_rate = 16000
frame_duration = 10 # 毫秒
frame = b'\x00\x00' * int(sample_rate * frame_duration / 1000)
prtin('Contains speech:%s' % (vad.is_speech(frame, sample_rate) )