2021-11 的文章 - 夜雨飄零

PPASR流式與非流式語音識別

2021-11-30 250 閱讀 PaddlePaddle 語音深度學習人工智能深度學習 PaddlePaddle 語音識別 DeepSpeech2

這段文檔介紹瞭如何使用PaddlePaddle實現的語音識別模型進行部署和測試，並提供了多種方式來執行和展示該模型的功能。以下是對文檔內容的總結及解讀： ### 1. 引言 - 概述了基於PaddlePaddle的語音識別模型，包括短語音和長音段的識別。 ### 2. 部署方法 #### 2.1 命令行部署提供了兩種命令來實現不同的部署方式： - `python infer_server.

閱讀全文

WenetSpeech數據集的處理和使用

2021-11-30 276 閱讀語音 PaddlePaddle 深度學習語音識別 PaddlePaddle WenetSpeech 普通話語音數據集中文語音數據集

WenetSpeech數據集提供10000+小時的普通話語音，分爲強標籤（10005小時）、弱標籤（2478小時）和無標籤（9952小時），用於監督、半監督或無監督訓練。數據按領域和風格分組，並提供了不同規模的數據集S、M、L及評估測試數據。教程詳細介紹瞭如何下載、製作並使用該數據集進行語音識別模型的訓練，適合ASR系統建設者參考。

閱讀全文

基於PaddlePaddle實現的快速人臉識別模型

2021-11-03 224 閱讀 PaddlePaddle 深度學習深度學習計算機視覺人工智能

該項目基於ArcFace和PP-OCRv2模型，開發了一個小型高效的人臉識別系統。訓練數據集爲emore（包含85742個人、5822653張圖片），測試則使用lfw-align-128數據集。項目提供完整代碼及預處理腳本，通過執行`create_dataset.py`將原始數據整理至二進制文件格式，以提高訓練效率。模型訓練與評估分別由`train.py`和`eval.py`控制。預測功能支持

閱讀全文

基於Pytorch實現的快速人臉識別模型

2021-11-03 206 閱讀 Pytorch 深度學習 Pytorch 深度學習人工智能

該項目旨在開發小型模型，高識別準確率且推理速度快的人臉識別系統。訓練數據來自emore數據集（582萬張圖片），測試則使用lfw-align-128數據集。項目結合了ArcFace損失函數和MobileNet，並通過Python腳本實現。訓練模型的過程包括數據準備、訓練與評估，所有代碼可在GitHub上獲取。訓練模型時，執行`train.py`命令即可開始訓練過程；而性能的驗證則通過運行`ev

閱讀全文