# 前言
本章介紹如何使用Tensorflow實現簡單的聲紋識別模型，首先你需要熟悉音頻分類，沒有了解的可以查看這篇文章《基於Tensorflow實現聲音分類》。基於這個知識基礎之上，我們訓練一個聲紋識別模型，通過這個模型我們可以識別說話的人是誰，可以應用在一些需要音頻驗證的項目。不同的是本項目使用了ArcFace Loss，ArcFace loss：Additive Angular Margin Loss（加性角度間隔損失函數），對特徵向量和權重歸一化，對θ加上角度間隔m，角度間隔比餘弦間隔在對角度的影響更加直接。

源碼地址：VoiceprintRecognition-Tensorflow

使用環境：

Python 3.7
Tensorflow 2.3.0

模型下載¶

數據集	類別數量	準確率	下載地址
中文語音語料數據集	3242	999693	點擊下載

安裝環境¶

安裝Tensorflow，如果已經安裝過Tensorflow，測無需再次安裝。

pip install tensorflow==2.3.0 -i https://mirrors.aliyun.com/pypi/simple/

安裝其他依賴庫，命令如下。

pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/

注意： libsora和pyaudio安裝出錯解決辦法

創建數據¶

本教程筆者使用的是中文語音語料數據集，這個數據集一共有3242個人的語音數據，有1130000+條語音數據。如果讀者有其他更好的數據集，可以混合在一起使用，但要用python的工具模塊aukit處理音頻，降噪和去除靜音。

首先是創建一個數據列表，數據列表的格式爲<語音文件路徑\t語音分類標籤>，創建這個列表主要是方便之後的讀取，也是方便讀取使用其他的語音數據集，語音分類標籤是指說話人的唯一ID，不同的語音數據集，可以通過編寫對應的生成數據列表的函數，把這些數據集都寫在同一個數據列表中。

在create_data.py寫下以下代碼，因爲中文語音語料數據集這個數據集是mp3格式的，作者發現這種格式讀取速度很慢，所以筆者把全部的mp3格式的音頻轉換爲wav格式，在創建數據列表之後，可能有些數據的是錯誤的，所以我們要檢查一下，將錯誤的數據刪除。執行下面程序完成數據準備。

python create_data.py

執行上面的程序之後，會生成以下的數據格式，如果要自定義數據，參考如下數據列表，前面是音頻的相對路徑，後面的是該音頻對應的說話人的標籤，就跟分類一樣。

dataset/zhvoice/zhmagicdata/5_895/5_895_20170614203758.wav  3238
dataset/zhvoice/zhmagicdata/5_895/5_895_20170614214007.wav  3238
dataset/zhvoice/zhmagicdata/5_941/5_941_20170613151344.wav  3239
dataset/zhvoice/zhmagicdata/5_941/5_941_20170614221329.wav  3239
dataset/zhvoice/zhmagicdata/5_941/5_941_20170616153308.wav  3239
dataset/zhvoice/zhmagicdata/5_968/5_968_20170614162657.wav  3240
dataset/zhvoice/zhmagicdata/5_968/5_968_20170622194003.wav  3240
dataset/zhvoice/zhmagicdata/5_968/5_968_20170707200554.wav  3240
dataset/zhvoice/zhmagicdata/5_970/5_970_20170616000122.wav  3241

數據讀取¶

有了上面創建的數據列表和均值標準值，就可以用於訓練讀取。主要是把語音數據轉換短時傅里葉變換的幅度譜，使用librosa可以很方便計算音頻的特徵，如梅爾頻譜的API爲librosa.feature.melspectrogram()，輸出的是numpy值，可以直接用PaddlePaddle訓練和預測。跟梅爾頻譜同樣很重要的梅爾倒譜（MFCCs）更多用於語音識別中，對應的API爲librosa.feature.mfcc()。在本項目中使用的API分別是librosa.stft()和librosa.magphase()。在訓練時，使用了數據增強，如隨機翻轉拼接，隨機裁剪。經過處理，最終得到一個257*257的短時傅里葉變換的幅度譜。

wav, sr_ret = librosa.load(audio_path, sr=sr)
linear = librosa.stft(extended_wav, n_fft=n_fft, win_length=win_length, hop_length=hop_length)
mag, _ = librosa.magphase(linear )
freq, freq_time = mag.shape
spec_mag = mag[:, :spec_len]
mean = np.mean(spec_mag, 0, keepdims=True)
std = np.std(spec_mag, 0, keepdims=True)
spec_mag = (spec_mag - mean) / (std + 1e-5)

訓練模型¶

創建train.py開始訓練模型，使用的是經過修改過的resnet34模型，數據輸入層設置爲[None, 1, 257, 257]，這個大小就是短時傅里葉變換的幅度譜的shape，如果讀者使用了其他的語音長度，也需要修改這個值。每訓練一輪結束之後，執行一次模型評估，計算模型的準確率，以觀察模型的收斂情況。同樣的，每一輪訓練結束保存一次模型，分別保存了可以恢復訓練的模型參數，也可以作爲預訓練模型參數。還保存預測模型，用於之後預測。

python train.py

訓練過程中，會使用tensorboard保存訓練日誌，通過啓動tensorboard可以隨時查看訓練結果，啓動命令tensorboard --logdir=log --host 0.0.0.0

評估模型¶

訓練結束之後會保存預測模型，我們用預測模型來預測測試集中的音頻特徵，然後使用音頻特徵進行兩兩對比，閾值從0到1,步長爲0.01進行控制，找到最佳的閾值並計算準確率。

python eval.py

輸出類似如下：

-----------  Configuration Arguments -----------
input_shape: (1, 257, 257)
list_path: dataset/test_list.txt
model_path: models/infer/model
------------------------------------------------

開始提取全部的音頻特徵...
100%|█████████████████████████████████████████████████████| 5332/5332 [01:09<00:00, 77.06it/s]
開始兩兩對比音頻特徵...
100%|█████████████████████████████████████████████████████| 5332/5332 [01:43<00:00, 51.62it/s]
100%|█████████████████████████████████████████████████████| 100/100 [00:03<00:00, 28.04it/s]
當閾值爲0.990000, 準確率最大，準確率爲：0.999693

聲紋對比¶

下面開始實現聲紋對比，創建infer_contrast.py程序，編寫infer()函數，在編寫模型的時候，模型是有兩個輸出的，第一個是模型的分類輸出，第二個是音頻特徵輸出。所以在這裏要輸出的是音頻的特徵值，有了音頻的特徵值就可以做聲紋識別了。我們輸入兩個語音，通過預測函數獲取他們的特徵數據，使用這個特徵數據可以求他們的對角餘弦值，得到的結果可以作爲他們相識度。對於這個相識度的閾值threshold，讀者可以根據自己項目的準確度要求進行修改。

python infer_contrast.py --audio_path1=audio/a_1.wav --audio_path2=audio/b_2.wav

輸出類似如下：

-----------  Configuration Arguments -----------
audio_path1: audio/a_1.wav
audio_path2: audio/b_1.wav
input_shape: (257, 257, 1)
model_path: models/infer_model.h5
threshold: 0.7
------------------------------------------------
Model: "functional_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
resnet50v2_input (InputLayer [(None, 257, 257, 1)]     0         
_________________________________________________________________
resnet50v2 (Functional)      (None, 2048)              23558528  
_________________________________________________________________
batch_normalization (BatchNo (None, 2048)              8192      
=================================================================
Total params: 23,566,720
Trainable params: 23,517,184
Non-trainable params: 49,536
_________________________________________________________________

audio/a_1.wav 和 audio/b_1.wav 不是同一個人，相似度爲：0.503458

聲紋識別¶

在上面的聲紋對比的基礎上，我們創建infer_recognition.py實現聲紋識別。同樣是使用上面聲紋對比的infer()預測函數，通過這兩個同樣獲取語音的特徵數據。不同的是筆者增加了load_audio_db()和register()，以及recognition()，第一個函數是加載聲紋庫中的語音數據，這些音頻就是相當於已經註冊的用戶，他們註冊的語音數據會存放在這裏，如果有用戶需要通過聲紋登錄，就需要拿到用戶的語音和語音庫中的語音進行聲紋對比，如果對比成功，那就相當於登錄成功並且獲取用戶註冊時的信息數據。第二個函數register()其實就是把錄音保存在聲紋庫中，同時獲取該音頻的特徵添加到待對比的數據特徵中。最後recognition()函數中，這個函數就是將輸入的語音和語音庫中的語音一一對比。
有了上面的聲紋識別的函數，讀者可以根據自己項目的需求完成聲紋識別的方式，例如筆者下面提供的是通過錄音來完成聲紋識別。首先必須要加載語音庫中的語音，語音庫文件夾爲audio_db，然後用戶回車後錄音3秒鐘，然後程序會自動錄音，並使用錄音到的音頻進行聲紋識別，去匹配語音庫中的語音，獲取用戶的信息。通過這樣方式，讀者也可以修改成通過服務請求的方式完成聲紋識別，例如提供一個API供APP調用，用戶在APP上通過聲紋登錄時，把錄音到的語音發送到後端完成聲紋識別，再把結果返回給APP，前提是用戶已經使用語音註冊，併成功把語音數據存放在audio_db文件夾中。

python infer_recognition.py

輸出類似如下：

-----------  Configuration Arguments -----------
audio_db: audio_db
input_shape: (257, 257, 1)
model_path: models/infer_model.h5
threshold: 0.7
------------------------------------------------
Model: "functional_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
resnet50v2_input (InputLayer [(None, 257, 257, 1)]     0         
_________________________________________________________________
resnet50v2 (Functional)      (None, 2048)              23558528  
_________________________________________________________________
batch_normalization (BatchNo (None, 2048)              8192      
=================================================================
Total params: 23,566,720
Trainable params: 23,517,184
Non-trainable params: 49,536
_________________________________________________________________

Loaded 李達康 audio.
Loaded 沙瑞金 audio.
請選擇功能，0爲註冊音頻到聲紋庫，1爲執行聲紋識別：0
按下回車鍵開機錄音，錄音3秒中：
開始錄音......
錄音已結束!
請輸入該音頻用戶的名稱：夜雨飄零
請選擇功能，0爲註冊音頻到聲紋庫，1爲執行聲紋識別：1
按下回車鍵開機錄音，錄音3秒中：
開始錄音......
錄音已結束!
識別說話的爲：夜雨飄零，相似度爲：0.920434

其他版本¶

PaddlePaddle：VoiceprintRecognition-PaddlePaddle
Pytorch：VoiceprintRecognition-Pytorch
Keras：VoiceprintRecognition-Keras

模型下載¶

安裝環境¶

創建數據¶

數據讀取¶

訓練模型¶

評估模型¶

聲紋對比¶

聲紋識別¶

其他版本¶

相關文章