前言¶
本項目說是使用Keras,但使用的都是Tensorflow下的keras接口,本項目主要是用於聲紋識別,也有人稱爲說話人識別。本項目包括了自定義數據集的訓練,聲紋對比,和聲紋識別。
源碼地址:VoiceprintRecognition-Keras
使用環境:
- Python 3.7
- Tensorflow 2.3.0
模型下載¶
| 數據集 | 類別數量 | 下載地址 |
|---|---|---|
| 中文語音語料數據集 | 3242 | 點擊下載 |
| 更大數據集 | 6235 | 點擊下載 |
安裝環境¶
1、安裝Tensorflow,這個包含GPU功能的。
```shell script
pip install tensorflow==2.3.0 -i https://mirrors.aliyun.com/pypi/simple/
2、、安裝其他依賴庫,命令如下。
```shell
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/
自定義數據訓練¶
本節介紹自定義數據集訓練,如何不想訓練模型,可以直接看下一節,使用官方公開的模型進行聲紋識別。
創建數據¶
本教程筆者使用的是中文語音語料數據集 ,這個數據集一共有3242個人的語音數據,有1130000+條語音數據。如果讀者有其他更好的數據集,可以混合在一起使用,但要用python的工具模塊aukit處理音頻,降噪和去除靜音。
首先是創建一個數據列表,數據列表的格式爲<語音文件路徑\t語音分類標籤>,創建這個列表主要是方便之後的讀取,也是方便讀取使用其他的語音數據集,語音分類標籤是指說話人的唯一ID,不同的語音數據集,可以通過編寫對應的生成數據列表的函數,把這些數據集都寫在同一個數據列表中。
在create_data.py寫下以下代碼,因爲中文語音語料數據集 這個數據集是mp3格式的,作者發現這種格式讀取速度很慢,所以筆者把全部的mp3格式的音頻轉換爲wav格式,在創建數據列表之後,可能有些數據的是錯誤的,所以我們要檢查一下,將錯誤的數據刪除。執行下面程序完成數據準備。
python create_data.py
執行上面的程序之後,會生成以下的數據格式,如果要自定義數據,參考如下數據列表,前面是音頻的相對路徑,後面的是該音頻對應的說話人的標籤,就跟分類一樣。
dataset/zhvoice/zhmagicdata/5_895/5_895_20170614203758.wav 3238
dataset/zhvoice/zhmagicdata/5_895/5_895_20170614214007.wav 3238
dataset/zhvoice/zhmagicdata/5_941/5_941_20170613151344.wav 3239
dataset/zhvoice/zhmagicdata/5_941/5_941_20170614221329.wav 3239
dataset/zhvoice/zhmagicdata/5_941/5_941_20170616153308.wav 3239
dataset/zhvoice/zhmagicdata/5_968/5_968_20170614162657.wav 3240
dataset/zhvoice/zhmagicdata/5_968/5_968_20170622194003.wav 3240
dataset/zhvoice/zhmagicdata/5_968/5_968_20170707200554.wav 3240
dataset/zhvoice/zhmagicdata/5_970/5_970_20170616000122.wav 3241
數據讀取¶
有了上面創建的數據列表和均值標準值,就可以用於訓練讀取。主要是把語音數據轉換短時傅里葉變換的幅度譜,使用librosa可以很方便計算音頻的特徵,如梅爾頻譜的API爲librosa.feature.melspectrogram(),輸出的是numpy值,可以直接用PaddlePaddle訓練和預測。跟梅爾頻譜同樣很重要的梅爾倒譜(MFCCs)更多用於語音識別中,對應的API爲librosa.feature.mfcc()。在本項目中使用的API分別是librosa.stft()和librosa.magphase()。在訓練時,使用了數據增強,如隨機翻轉拼接,隨機裁剪。經過處理,最終得到一個257*257的短時傅里葉變換的幅度譜。
wav, sr_ret = librosa.load(audio_path, sr=sr)
linear = librosa.stft(extended_wav, n_fft=n_fft, win_length=win_length, hop_length=hop_length)
mag, _ = librosa.magphase(linear)
freq, freq_time = mag.shape
spec_mag = mag[:, :spec_len]
mean = np.mean(spec_mag, 0, keepdims=True)
std = np.std(spec_mag, 0, keepdims=True)
spec_mag = (spec_mag - mean) / (std + 1e-5)
訓練¶
在執行訓練之前,可能需要修改train.py中的幾個參數。
- gpu是指定是用那個幾個GPU的,如何多卡的情況下,最好全部的GPU都使用上。
- resume這個是用於恢復訓練的,如何之前有訓練過的模型,可以只用這個參數指定模型的路徑,恢復訓練。
- batch_size根據自己顯存的大小設置batch的大小。
- num_classes是分類數量,這個可以查看上一步生成數據列表最後一個得到分類數量,但也記得加1,因爲label是從0開始的。
最後執行train.py開始訓練。
評估模型¶
訓練結束之後會保存預測模型,我們用預測模型來預測測試集中的音頻特徵,然後使用音頻特徵進行兩兩對比,閾值從0到1,步長爲0.01進行控制,找到最佳的閾值並計算準確率。
python eval.py
輸出類似如下:
----------- Configuration Arguments -----------
list_path: dataset/test_list.txt
model_path: models/resnet34-51.h5
------------------------------------------------
==> successfully loading model models/resnet34-51.h5.
開始提取全部的音頻特徵...
100%|█████████████████████████████████████████████████████| 5332/5332 [01:09<00:00, 77.06it/s]
開始兩兩對比音頻特徵...
100%|█████████████████████████████████████████████████████| 5332/5332 [01:43<00:00, 51.62it/s]
100%|█████████████████████████████████████████████████████| 100/100 [00:03<00:00, 28.04it/s]
當閾值爲0.790000, 準確率最大,準確率爲:0.999787
聲紋對比¶
下面開始實現聲紋對比,創建infer_contrast.py程序,編寫infer()函數,在編寫模型的時候,模型是有兩個輸出的,第一個是模型的分類輸出,第二個是音頻特徵輸出。所以在這裏要輸出的是音頻的特徵值,有了音頻的特徵值就可以做聲紋識別了。我們輸入兩個語音,通過預測函數獲取他們的特徵數據,使用這個特徵數據可以求他們的對角餘弦值,得到的結果可以作爲他們相識度。對於這個相識度的閾值threshold,讀者可以根據自己項目的準確度要求進行修改。
python infer_contrast.py --audio_path1=audio/a_1.wav --audio_path2=audio/b_2.wav
輸出類似如下:
----------- Configuration Arguments -----------
audio_path1: audio/a_1.wav
audio_path2: audio/b_2.wav
model_path: models/resnet34-51.h5
threshold: 0.79
------------------------------------------------
==> successfully loading model models/resnet34-51.h5.
audio/a_1.wav 和 audio/b_2.wav 不是同一個人,相似度爲:0.020499
聲紋識別¶
在上面的聲紋對比的基礎上,我們創建infer_recognition.py實現聲紋識別。同樣是使用上面聲紋對比的infer()預測函數,通過這兩個同樣獲取語音的特徵數據。 不同的是筆者增加了load_audio_db()和register(),以及recognition(),第一個函數是加載聲紋庫中的語音數據,這些音頻就是相當於已經註冊的用戶,他們註冊的語音數據會存放在這裏,如果有用戶需要通過聲紋登錄,就需要拿到用戶的語音和語音庫中的語音進行聲紋對比,如果對比成功,那就相當於登錄成功並且獲取用戶註冊時的信息數據。第二個函數register()其實就是把錄音保存在聲紋庫中,同時獲取該音頻的特徵添加到待對比的數據特徵中。最後recognition()函數中,這個函數就是將輸入的語音和語音庫中的語音一一對比。
有了上面的聲紋識別的函數,讀者可以根據自己項目的需求完成聲紋識別的方式,例如筆者下面提供的是通過錄音來完成聲紋識別。首先必須要加載語音庫中的語音,語音庫文件夾爲audio_db,然後用戶回車後錄音3秒鐘,然後程序會自動錄音,並使用錄音到的音頻進行聲紋識別,去匹配語音庫中的語音,獲取用戶的信息。通過這樣方式,讀者也可以修改成通過服務請求的方式完成聲紋識別,例如提供一個API供APP調用,用戶在APP上通過聲紋登錄時,把錄音到的語音發送到後端完成聲紋識別,再把結果返回給APP,前提是用戶已經使用語音註冊,併成功把語音數據存放在audio_db文件夾中。
python infer_recognition.py
輸出類似如下:
----------- Configuration Arguments -----------
audio_db: audio_db
model_path: models/resnet34-51.h5
threshold: 0.79
------------------------------------------------
==> successfully loading model models/resnet34-56.h5.
Loaded 李達康 audio.
Loaded 沙瑞金 audio.
請選擇功能,0爲註冊音頻到聲紋庫,1爲執行聲紋識別:0
按下回車鍵開機錄音,錄音3秒中:
開始錄音......
錄音已結束!
請輸入該音頻用戶的名稱:夜雨飄零
請選擇功能,0爲註冊音頻到聲紋庫,1爲執行聲紋識別:1
按下回車鍵開機錄音,錄音3秒中:
開始錄音......
錄音已結束!
識別說話的爲:夜雨飄零,相似度爲:0.920434
其他版本¶
- PaddlePaddle:VoiceprintRecognition-PaddlePaddle
- Pytorch:VoiceprintRecognition-Pytorch
- Tensorflow:VoiceprintRecognition-Tensorflow