WenetSpeech数据集的处理和使用

2022-01-22

WenetSpeech数据集

10000+小时的普通话语音数据集，使用地址：PPASR

WenetSpeech

WenetSpeech数据集包含了10000+小时的普通话语音数据集，所有数据均来自 YouTube 和 Podcast。采用光学字符识别(OCR)和自动语音识别(ASR)技术分别标记每个YouTube和Podcast录音。为了提高语料库的质量，WenetSpeech使用了一种新颖的端到端标签错误检测方法来进一步验证和过滤数据。

所有数据分为 3 类，如下表所示：

数据分类	时长（小时）	可信度	可用系统
强标签	10005	>=0.95	监督训练
弱标签	2478	[0.6, 0.95]	半监督或噪音训练
无标签	9952	/	无监督训练或预训练
总共	22435	/	/

领域、说话风格和场景将高标签分为 10 组，如下表所示：

领域	Youtube（小时）	Podcast（小时）	全部（小时）
有声读物	0	250.9	250.9
现场解说	112.6	135.7	248.3
纪录片	386.7	90.5	477.2
戏剧	4338.2	0	4338.2
采访	324.2	614	938.2
新闻	0	868	868
阅读	0	1110.2	1110.2
讨论	204	90.7	294.7
综艺	603.3	224.5	827.8
其他	144	507.5	651.5
总共	6113	3892	10005

3个子集，即S，M并且L对不同的数据规模建设ASR系统

训练数据	可信度	时长（小时）
L	[0.95, 1.0]	10005
M	1.0	1000
S	1.0	100

评估测试数据

评估数据	时长（小时）	来源	描述
DEV	20	互联网	专为一些需要在训练中设置交叉验证的语音工具而设计
TEST_NET	23	互联网	比赛测试
TEST_MEETING	15	会议	远场、对话、自发和会议数据集

本教程介绍如何使用该数据集训练语音识别模型，只是用强标签的数据，主要分三步。下载并解压WenetSpeech数据集，在官网填写表单之后，会收到邮件，执行邮件上面的三个命令就可以下载并解压数据集了，注意这要500G的磁盘空间。
然后制作数据集，下载原始的数据是没有裁剪的，我们需要根据JSON标注文件裁剪并标注音频文件。在tools目录下执行create_wenetspeech_data.py程序就可以制作数据集了，注意此时需要3T的磁盘空间。--wenetspeech_json参数是指定WenetSpeech数据集的标注文件路径，具体根据读者下载的地址设置。

cd tools/
python create_wenetspeech_data.py --wenetspeech_json=/media/wenetspeech/WenetSpeech.json

最后创建训练数据，跟普通使用一样，在项目根目录执行create_data.py就能过生成训练所需的数据列表，词汇表和均值标准差文件。这一步结束后就可以训练模型了，具体看训练模型

python create_data.py

项目地址：https://github.com/yeyupiaoling/PPASR

标题：WenetSpeech数据集的处理和使用
作者：yeyupiaoling
地址：https://yeyupiaoling.cn/articles/1642836784717.html