標籤 "音視頻" 下的文章

YeAudio音頻工具的介紹和使用

2024-08-29 436 閱讀語音音視頻語音識別 Python FFmpeg

這些類定義了各種音頻數據增強技術。每個類都負責一種特定的數據增強操作，並且可以通過設置不同的參數來控制增強的程度和類型。以下是對每個類的詳細描述： ### 1. **SpecAugmentor** - **功能**: 頻域掩蔽和時域掩蔽 - **主要參數**: - `prob`: 數據增強的概率。 - `freq_mask_ratio`: 頻域掩蔽的比例（例如0.15意味着在頻譜上隨機選

閱讀全文

鴻蒙應用開發-錄音保存並播放音頻

2024-03-26 319 閱讀鴻蒙應用開發 HarmonyOS 音視頻華爲鴻蒙系統

你的代碼示例展示瞭如何在鴻蒙系統中實現音頻錄製和播放功能。下面是對代碼的總結和一些改進建議： ### 總結 1. **權限申請**： - 在啓動錄音之前，需要先請求用戶授權。 - 使用 `requestPermissionsFromUser` 方法來獲取用戶的許可。 2. **錄音功能**： - 使用 `startRecord` 開始錄製音頻，並將文件保存到指定路徑。

閱讀全文

輕鬆識別幾個小時的長音視頻文件

2024-01-07 227 閱讀語音 Pytorch 音視頻語音識別 Pytorch 人工智能

本文介紹了搭建一個長語音識別服務的方法，使其能夠處理幾十分鐘甚至幾個小時的音頻或視頻。首先，需要將文件夾上傳至服務器並執行編譯、權限修改和啓動Docker容器命令來部署服務。測試顯示服務可用後，可以使用WebSocket接口或HTTP服務進行交互。 HTTP服務提供了網頁界面，支持多種格式音視頻上傳及錄製識別功能，並返回包含每句話開始和結束時間戳的文本結果。此服務簡化了長音頻識別流程，提高了用戶

閱讀全文