白嫖AiStudio算力部署文心4.5開源大模型給Android調用

在上一篇文章《部署文心4.5開源模型給Android設備調用》,博主介紹瞭如何在自己的服務器部署文心4.5開源大語言模型,但對於沒有GPU服務器的同學來說,可望而不可即。所以本篇文章就介紹如何白嫖AiStudio上面的算力來部署文心4.5開源大模型給自己使用。

閱讀全文
部署文心4.5開源模型給Android設備調用

在上一篇文章《文心4.5開源大模型的使用和部署》已經介紹瞭如何使用fastdeploy部署文心4.5開源大模型的,並且簡單調用了接口,本篇文章來介紹Android如何調用這個部署的接口,並實現對話。

閱讀全文
文心4.5開源大模型的使用和部署

文心4.5系列開源模型共10款,涵蓋了激活參數規模分別爲47B 和3B 的混合專家(MoE)模型(最大的模型總參數量爲424B),以及0.3B 的稠密參數模型。下面我們就介紹如何快速使用文心4.5模型推理,以及部署接口給Android、微信小程序等客戶端調用,注意這裏只接受文本類型的模型,實際文心4.5也有多模態的模型。

閱讀全文
Android部署MediaPipe自定義手勢識別模型
2025-07-05 185 閱讀 TensorFlow Android mediapipe

本項目基於Google MediaPipe和Android CameraX技術棧,實現了一個高性能的即時手勢識別Android應用。項目採用了MediaPipe最新的Gesture Recognition API,支持多種手勢類型的識別,包括豎大拇指、勝利手勢、張開手掌等常見手勢,同時具備即時手部關鍵點檢測和繪製功能。

閱讀全文
MediaPipe自定義手勢識別訓練模型
2025-07-05 285 閱讀 TensorFlow Android mediapipe

MediaPipe是Google開源的一個用於構建感知管道以處理視頻、音頻等時間序列數據的框架。其中MediaPipe Hands是一個高性能的手部關鍵點檢測解決方案,能夠在移動設備上即時檢測手部關鍵點。

閱讀全文
一個由Python開發的工具網站
2025-07-05 175 閱讀 後端 Python

本文章要介紹的是一個包含了諸多功能的工具網站,這個網站使用的是Python作爲開發語言。裏面包含了文檔工具,pdf工具,圖片工具,音頻工具,視頻工具,語音工具,還有編程工具等等,這些都是工作或者學習中會使用遇到的工具。

閱讀全文
快速從零部署一個DeepSeek-R1服務

這裏使用最簡單的幾條命令介紹如何部署DeepSeek-R1的服務,默認已經安裝了Anaconda,使用的是vllm框架,國內也可以輕鬆部署。

閱讀全文
快速訓練貓狗聲音分類模型

本文介紹瞭如何使用PyTorch和macls庫快速進行聲音分類訓練與推理。首先,通過Anaconda創建Python3.11虛擬環境,並安裝PyTorch 2.5.1 GPU版本及macls庫。接着,準備數據集,提供下載鏈接或自定義格式。訓練部分僅需三行代碼即可完成模型訓練、優化和保存。推理環節則加載預訓練模型並進行預測。框架支持多種聲音分類模型,方便不同場景需求。

閱讀全文
快速使用MASR V3版部署語音識別框架

這個框架看起來非常全面且易用,涵蓋了從數據準備到模型訓練再到推理等多個環節。爲了幫助讀者更好地理解和使用該框架,我會對每個部分進行詳細解釋,並提供一些示例代碼。 ### 1. 環境搭建 首先需要安裝必要的依賴包。假設你已經創建了一個虛擬環境並激活它: ```sh pip install paddlepaddle==2.4.0 -i https://mirror.baidu.com/pypi/

閱讀全文
快速使用PPASR V3版部署語音識別框架

這個詳細介紹展示瞭如何使用PaddleSpeech框架進行語音識別任務的開發與部署過程。以下是對你提供的信息的一些補充和建議: 1. **安裝環境**:確保你的環境中已經安裝了必要的依賴項,包括PaddlePaddle、PaddleSpeech等庫。可以通過pip命令來安裝這些庫。 2. **數據預處理**: - 你可能需要對原始音頻進行預處理步驟,如採樣率調整、噪聲去除等。

閱讀全文
基於大語言模型實現文本端點檢測

本文介紹了使用大語言模型進行文本端點檢測的方法,以改進語音對話中的語音活動檢測(VAD)。通過訓練一個微調後的模型來預測句子是否完整,可以更準確地判斷用戶的意圖。具體步驟包括: 1. **原理與數據準備**:利用大語言模型的文本生成功能,基於預定義的數據集和特定格式進行微調。 2. **微調模型**:使用LLaMA-Factory工具進行訓練,並選擇合適的提示模板及優化後的數據格式。 3. **

閱讀全文
基於Pytorch實現的說話人日誌(說話人分離)

本文介紹了基於Pytorch實現的聲紋識別框架(`VoiceprintRecognition_Pytorch`)的說話人日誌功能,支持多種先進的模型和數據預處理方法。通過執行`infer_speaker_diarization.py`腳本或使用GUI界面程序,可以對音頻進行說話人分離並顯示結果。輸出包括每個說話人的起止時間和身份識別信息(需先註冊)。此外,文章還提供了在Ubuntu系統中解決中文名

閱讀全文
YeAudio音頻工具的介紹和使用
2024-08-29 448 閱讀 語音 音視頻 語音識別 Python FFmpeg

這些類定義了各種音頻數據增強技術。每個類都負責一種特定的數據增強操作,並且可以通過設置不同的參數來控制增強的程度和類型。以下是對每個類的詳細描述: ### 1. **SpecAugmentor** - **功能**: 頻域掩蔽和時域掩蔽 - **主要參數**: - `prob`: 數據增強的概率。 - `freq_mask_ratio`: 頻域掩蔽的比例(例如0.15意味着在頻譜上隨機選

閱讀全文
Ubuntu安裝Docker並支持使用GPU
2024-08-29 499 閱讀 後端 Ubuntu Docker eureka

本文介紹了使用阿里雲鏡像源安裝和配置Docker,並支持英偉達GPU使用。首先添加阿里雲GPG密鑰並設置倉庫,更新apt源後安裝Docker。接着在`/etc/docker/daemon.json`中添加國內鏡像源地址並重啓Docker服務進行配置。然後通過curl命令下載並安裝nvidia-container-toolkit,並將其配置爲Docker運行時,最後測試是否支持GPU使用。 主要步

閱讀全文
Ubuntu22.04使用/etc/rc.local開機啓動程序
2024-07-02 467 閱讀 後端 Ubuntu

本文介紹了在Ubuntu20.04或22.04系統中使用`/etc/rc.local`實現開機啓動程序的方法。需編輯`/lib/systemd/system/rc-local.service`文件添加配置、創建並賦予執行權限於`/etc/rc.local`,創建服務的軟鏈接,並啓用相關服務。通過上述步驟後,重啓設備可檢測是否成功實現開機啓動,若在指定路徑下生成了包含“測試成功”的日誌文件,則說明設

閱讀全文
夜雨飄零·千問:解答您無盡的疑問

夜雨飄零·千問啓動器是一款高效便捷的大語言模型啓動工具。支持Windows系統,需NVIDIA顯卡且驅動版本在516.01以上。啓動器內置多種規格的模型,適用於不同場景需求,最小僅需1G顯存。 界面分爲三部分:啓動頁面、聊天頁面和日誌頁面。啓動頁面用於選擇並加載模型文件(本地無時自動下載),點擊加載後無縫切換至聊天頁面進行互動;聊天頁面支持隨時提問,模型即時回覆提供智能對話體驗;日誌頁面記錄使用

閱讀全文
鴻蒙應用開發-錄音保存並播放音頻

你的代碼示例展示瞭如何在鴻蒙系統中實現音頻錄製和播放功能。下面是對代碼的總結和一些改進建議: ### 總結 1. **權限申請**: - 在啓動錄音之前,需要先請求用戶授權。 - 使用 `requestPermissionsFromUser` 方法來獲取用戶的許可。 2. **錄音功能**: - 使用 `startRecord` 開始錄製音頻,並將文件保存到指定路徑。

閱讀全文
鴻蒙應用開發-錄音並使用WebSocket實現即時語音識別

你的代碼實現了一個使用WebSocket進行即時語音識別的完整示例。下面是對整個項目的一些補充和優化建議,以確保項目的健壯性和可維護性。 ### 1. 權限檢查和提示 在請求權限時,可以提供更詳細的提示信息,並且可以在用戶拒絕授權後給出合理的操作建議或引導用戶前往設置頁面進行手動授權。 ```javascript reqPermissionsAndRecord(permissions: Ar

閱讀全文
鴻蒙應用開發-自定義可刪除列表彈窗

該應用實現了自定義列表彈窗功能,支持添加、刪除和確認任務。具體實現如下: 1. **實體類**:`Intention` 類用於定義任務項。 2. **數據源類** (`IntentionDataSource`) :管理任務列表的數據操作,包括增刪查改及通知監聽器更新。 3. **自定義彈窗組件** (`AddIntentionDialog`) :展示當前的任務列表,並提供刪除和確認按鈕。點擊刪除

閱讀全文
鴻蒙應用開發-仿微信聊天對話對話信息列表

該示例展示瞭如何使用ArkTS創建一個類似微信的聊天應用界面。頁面結構包括一個可滾動的消息列表和一個按鈕,用於動態添加新消息。 核心代碼如下: 1. `Msg` 類定義了消息類型(發送或接收)。 2. `MsgDataSource` 類實現了數據源接口,管理消息列表,並提供增刪操作。 3. 頁面中使用 `List` 控件顯示消息列表,通過 `LazyForEach` 在用戶滾動時動態加載新消息。

閱讀全文
鴻蒙應用開發-發送POST請求並獲取結果

該代碼用於通過POST請求向服務器發送數據並解析JSON響應。核心功能包括: 1. 使用`http.createHttp().request()`方法,以異步方式發送POST請求。 2. 設置請求頭和發送的數據。 3. 獲取響應結果,並將其解析爲JSON格式。 4. 解析JSON數據,提取有效信息更新界面文本。 代碼結構清晰地展示瞭如何在HarmonyOS應用中實現HTTP請求。通過設置狀態變量

閱讀全文
鴻蒙應用開發-播放本地音頻文件

本文檔介紹了使用AVPlayer音視頻播放器在HarmonyOS上實現音頻播放功能。主要步驟包括:1. 創建`AVPlayer`實例並註冊回調函數以處理狀態變化和錯誤;2. 獲取本地音頻文件路徑,通過文件系統操作打開音頻文件獲取文件描述符,並設置到`AVPlayer`中觸發資源初始化;3. 實現狀態機變化邏輯,從資源初始化到播放完成。此代碼片段展示瞭如何在Stage模型下使用ArkTS語言實現音頻

閱讀全文
鴻蒙應用開發-請求語音合成服務獲取音頻文件

本文檔描述了一個使用HarmonyOS實現的語音合成服務,通過上傳文本數據並請求服務器返回音頻數據。關鍵步驟包括創建HTTP請求、設置請求頭部和數據體、處理響應數據保存至本地文件等操作。代碼示例展示瞭如何在Ability中集成該功能,具體實現了用戶輸入文本後觸發下載並保存爲.wav格式的語音文件。需注意服務響應類型必須爲`application/octet-stream`以正確獲取音頻流,並且只適

閱讀全文
輕鬆識別幾個小時的長音視頻文件

本文介紹了搭建一個長語音識別服務的方法,使其能夠處理幾十分鐘甚至幾個小時的音頻或視頻。首先,需要將文件夾上傳至服務器並執行編譯、權限修改和啓動Docker容器命令來部署服務。測試顯示服務可用後,可以使用WebSocket接口或HTTP服務進行交互。 HTTP服務提供了網頁界面,支持多種格式音視頻上傳及錄製識別功能,並返回包含每句話開始和結束時間戳的文本結果。此服務簡化了長音頻識別流程,提高了用戶

閱讀全文
即時指令喚醒

本文介紹了即時指令喚醒程序的開發與使用,包括安裝環境、指令喚醒、微調模型等步驟。項目基於Anaconda 3和Python 3.11運行,並依賴PyTorch 2.1.0及CUDA 12.1。用戶可通過調整`sec_time`和`last_len`參數來定製錄音時間與長度,同時在`instruct.txt`添加指令進行個性化設置。 程序通過`infer_pytorch.py`或`infer_on

閱讀全文