人聲識別之webrtcvad
阿新 • • 發佈:2021-06-24
1. 簡介
- Google開源的用於人聲識別,輸入支援10ms,20ms,30ms的音訊段,取樣率支援8000, 16000, 32000 or 48000 Hz
github 地址:https://github.com/wiseman/py-webrtcvad
2. python中安裝以及使用
- 直接pip進行安裝
pip install webrtcvad
- 使用
# 建立一個 Vad 物件: import webrtcvad vad = webrtcvad.Vad() # 可選地,設定它的攻擊性模式,它是一個介於 0 和 3 之間的整數。0 是過濾非語音的最不積極的,3 是最積極的。 (您也可以在建立 VAD 時設定模式,例如 vad = webrtcvad.Vad(3)): vad.set_mode(1) # 給它一小段(“幀”)的音訊。 WebRTC VAD 僅接受 16 位單聲道 PCM 音訊,取樣頻率為 8000、16000、32000 或 48000 Hz。 幀的持續時間必須為 10、20 或 30 毫秒: # 在 10 毫秒的靜默狀態下執行 VAD。 結果應該是False。 sample_rate = 16000 frame_duration = 10 # 毫秒 frame = b'\x00\x00' * int(sample_rate * frame_duration / 1000) prtin('Contains speech:%s' % (vad.is_speech(frame, sample_rate) )