2021-11 的文章

PPASR流式与非流式语音识别

这段文档介绍了如何使用PaddlePaddle实现的语音识别模型进行部署和测试,并提供了多种方式来执行和展示该模型的功能。以下是对文档内容的总结及解读: ### 1. 引言 - 概述了基于PaddlePaddle的语音识别模型,包括短语音和长音段的识别。 ### 2. 部署方法 #### 2.1 命令行部署 提供了两种命令来实现不同的部署方式: - `python infer_server.

阅读全文
WenetSpeech数据集的处理和使用

WenetSpeech数据集提供10000+小时的普通话语音,分为强标签(10005小时)、弱标签(2478小时)和无标签(9952小时),用于监督、半监督或无监督训练。数据按领域和风格分组,并提供了不同规模的数据集S、M、L及评估测试数据。教程详细介绍了如何下载、制作并使用该数据集进行语音识别模型的训练,适合ASR系统建设者参考。

阅读全文
基于PaddlePaddle实现的快速人脸识别模型

该项目基于ArcFace和PP-OCRv2模型,开发了一个小型高效的人脸识别系统。训练数据集为emore(包含85742个人、5822653张图片),测试则使用lfw-align-128数据集。 项目提供完整代码及预处理脚本,通过执行`create_dataset.py`将原始数据整理至二进制文件格式,以提高训练效率。模型训练与评估分别由`train.py`和`eval.py`控制。预测功能支持

阅读全文
基于Pytorch实现的快速人脸识别模型

该项目旨在开发小型模型,高识别准确率且推理速度快的人脸识别系统。训练数据来自emore数据集(582万张图片),测试则使用lfw-align-128数据集。项目结合了ArcFace损失函数和MobileNet,并通过Python脚本实现。训练模型的过程包括数据准备、训练与评估,所有代码可在GitHub上获取。 训练模型时,执行`train.py`命令即可开始训练过程;而性能的验证则通过运行`ev

阅读全文