标签: 普通话语音数据集
WenetSpeech数据集的处理和使用
WenetSpeech数据集提供10000+小时的普通话语音,分为强标签(10005小时)、弱标签(2478小时)和无标签(9952小时),用于监督、半监督或无监督训练。数据按领域和风格分组,并提供了不同规模的数据集S、M、L及评估测试数据。教程详细介绍了如何下载、制作并使用该数据集进行语音识别模型的训练,适合ASR系统建设者参考。
阅读全文WenetSpeech数据集提供10000+小时的普通话语音,分为强标签(10005小时)、弱标签(2478小时)和无标签(9952小时),用于监督、半监督或无监督训练。数据按领域和风格分组,并提供了不同规模的数据集S、M、L及评估测试数据。教程详细介绍了如何下载、制作并使用该数据集进行语音识别模型的训练,适合ASR系统建设者参考。
阅读全文