今天來介紹一個VAD的工具，VAD（Voice Activity Detection）語音活動檢測，是可以把一段長語音以靜音位置把語音分割成多段短語音，常見的就用WebRTC VAD工具，目前很多項目都是用這個工具，但是今天作者介紹的是另一個工具，這個工具是YeAudio的一個小功能，這個功能是基於深度學習實現的。

使用¶

首先要安裝YeAudio庫。

python -m pip install yeaudio -i https://pypi.tuna.tsinghua.edu.cn/simple -U

使用如下，幾行代碼就可以獲取活動語音的位置。這裏要注意幾點，首先是輸入的數據必須是float32，然後是採樣率必須是8000或者16000，其他採樣率，例如16000的倍數應該也可以，但不保證準確率。

from yeaudio.audio import AudioSegment

audio_segment = AudioSegment.from_file('data/test.wav')

speech_timestamps = audio_segment.vad()
print(speech_timestamps)

輸出結果如下，是一個列表，每個列表包含一個字典，字典的數據就是活動語音的開始位置和結束位置。

[{'start': 11808, 'end': 24032}, {'start': 26144, 'end': 55264}, {'start': 57888, 'end': 125408}]

流式即時檢測¶

最新版本可以支持流式檢測語音活動，在錄音的時候可以試試檢測是否停止說話，從而完成一些業務，如停止錄音開始識別等。

from yeaudio.audio import AudioSegment
from yeaudio.streaming_vad import StreamingVAD

audio_seg = AudioSegment.from_file('data/test.wav')
data = audio_seg.samples

streaming_vad = StreamingVAD(sample_rate=audio_seg.sample_rate)

for ith_frame in range(0, len(data), streaming_vad.vad_frames):
    buffer = data[ith_frame:ith_frame + streaming_vad.vad_frames]
    state = streaming_vad(buffer)
    print("VAD state:", state)

即時輸出檢測結果：

VAD state: VADState.QUIET
VAD state: VADState.QUIET
VAD state: VADState.QUIET
VAD state: VADState.STARTING
VAD state: VADState.STARTING
VAD state: VADState.SPEAKING
VAD state: VADState.SPEAKING
VAD state: VADState.SPEAKING
······

使用¶

流式即時檢測¶

相關文章