WenetSpeech數據集的處理和使用

# WenetSpeech數據集

10000+小時的普通話語音數據集，使用地址：PPASR

WenetSpeech數據集包含了10000+小時的普通話語音數據集，所有數據均來自 YouTube 和 Podcast。採用光學字符識別(OCR)和自動語音識別(ASR)技術分別標記每個YouTube和Podcast錄音。爲了提高語料庫的質量，WenetSpeech使用了一種新穎的端到端標籤錯誤檢測方法來進一步驗證和過濾數據。

所有數據分爲 3 類，如下表所示：

數據分類	時長（小時）	可信度	可用系統
強標籤	10005	>=0.95	監督訓練
弱標籤	2478	[0.6, 0.95]	半監督或噪音訓練
無標籤	9952	/	無監督訓練或預訓練
總共	22435	/	/

領域、說話風格和場景將高標籤分爲 10 組，如下表所示：

領域	Youtube（小時）	Podcast（小時）	全部（小時）
有聲讀物	0	250.9	250.9
現場解說	112.6	135.7	248.3
紀錄片	386.7	90.5	477.2
戲劇	4338.2	0	4338.2
採訪	324.2	614	938.2
新聞	0	868	868
閱讀	0	1110.2	1110.2
討論	204	90.7	294.7
綜藝	603.3	224.5	827.8
其他	144	507.5	651.5
總共	6113	3892	10005

3個子集，即S，M並且L對不同的數據規模建設ASR系統

訓練數據	可信度	時長（小時）
L	[0.95, 1.0]	10005
M	1.0	1000
S	1.0	100

評估測試數據

評估數據	時長（小時）	來源	描述
DEV	20	互聯網	專爲一些需要在訓練中設置交叉驗證的語音工具而設計
TEST_NET	23	互聯網	比賽測試
TEST_MEETING	15	會議	遠場、對話、自發和會議數據集

本教程介紹如何使用該數據集訓練語音識別模型，只是用強標籤的數據，主要分三步。下載並解壓WenetSpeech數據集，在官網填寫表單之後，會收到郵件，執行郵件上面的三個命令就可以下載並解壓數據集了，注意這要500G的磁盤空間。
然後製作數據集，下載原始的數據是沒有裁剪的，我們需要根據JSON標註文件裁剪並標註音頻文件。在tools目錄下執行create_wenetspeech_data.py程序就可以製作數據集了，注意此時需要3T的磁盤空間。--wenetspeech_json參數是指定WenetSpeech數據集的標註文件路徑，具體根據讀者下載的地址設置。

cd tools/
python create_wenetspeech_data.py --wenetspeech_json=/media/wenetspeech/WenetSpeech.json

最後創建訓練數據，跟普通使用一樣，在項目根目錄執行create_data.py就能過生成訓練所需的數據列表，詞彙表和均值標準差文件。這一步結束後就可以訓練模型了，具體看訓練模型

python create_data.py

項目地址：https://github.com/yeyupiaoling/PPASR

相關文章