PPASR流式與非流式語音識別

這段文檔介紹瞭如何使用PaddlePaddle實現的語音識別模型進行部署和測試,並提供了多種方式來執行和展示該模型的功能。以下是對文檔內容的總結及解讀: ### 1. 引言 - 概述了基於PaddlePaddle的語音識別模型,包括短語音和長音段的識別。 ### 2. 部署方法 #### 2.1 命令行部署 提供了兩種命令來實現不同的部署方式: - `python infer_server.

閱讀全文
WenetSpeech數據集的處理和使用

WenetSpeech數據集提供10000+小時的普通話語音,分爲強標籤(10005小時)、弱標籤(2478小時)和無標籤(9952小時),用於監督、半監督或無監督訓練。數據按領域和風格分組,並提供了不同規模的數據集S、M、L及評估測試數據。教程詳細介紹瞭如何下載、製作並使用該數據集進行語音識別模型的訓練,適合ASR系統建設者參考。

閱讀全文
基於PaddlePaddle實現的快速人臉識別模型

該項目基於ArcFace和PP-OCRv2模型,開發了一個小型高效的人臉識別系統。訓練數據集爲emore(包含85742個人、5822653張圖片),測試則使用lfw-align-128數據集。 項目提供完整代碼及預處理腳本,通過執行`create_dataset.py`將原始數據整理至二進制文件格式,以提高訓練效率。模型訓練與評估分別由`train.py`和`eval.py`控制。預測功能支持

閱讀全文
基於Pytorch實現的快速人臉識別模型

該項目旨在開發小型模型,高識別準確率且推理速度快的人臉識別系統。訓練數據來自emore數據集(582萬張圖片),測試則使用lfw-align-128數據集。項目結合了ArcFace損失函數和MobileNet,並通過Python腳本實現。訓練模型的過程包括數據準備、訓練與評估,所有代碼可在GitHub上獲取。 訓練模型時,執行`train.py`命令即可開始訓練過程;而性能的驗證則通過運行`ev

閱讀全文