標籤 "普通話語音數據集" 下的文章

WenetSpeech數據集的處理和使用

2021-11-30 280 閱讀語音 PaddlePaddle 深度學習語音識別 PaddlePaddle WenetSpeech 普通話語音數據集中文語音數據集

WenetSpeech數據集提供10000+小時的普通話語音，分爲強標籤（10005小時）、弱標籤（2478小時）和無標籤（9952小時），用於監督、半監督或無監督訓練。數據按領域和風格分組，並提供了不同規模的數據集S、M、L及評估測試數據。教程詳細介紹瞭如何下載、製作並使用該數據集進行語音識別模型的訓練，適合ASR系統建設者參考。

閱讀全文