白嫖AiStudio算力部署文心4.5开源大模型给Android调用

在上一篇文章《部署文心4.5开源模型给Android设备调用》,博主介绍了如何在自己的服务器部署文心4.5开源大语言模型,但对于没有GPU服务器的同学来说,可望而不可即。所以本篇文章就介绍如何白嫖AiStudio上面的算力来部署文心4.5开源大模型给自己使用。

阅读全文
部署文心4.5开源模型给Android设备调用

在上一篇文章《文心4.5开源大模型的使用和部署》已经介绍了如何使用fastdeploy部署文心4.5开源大模型的,并且简单调用了接口,本篇文章来介绍Android如何调用这个部署的接口,并实现对话。

阅读全文
文心4.5开源大模型的使用和部署

文心4.5系列开源模型共10款,涵盖了激活参数规模分别为47B 和3B 的混合专家(MoE)模型(最大的模型总参数量为424B),以及0.3B 的稠密参数模型。下面我们就介绍如何快速使用文心4.5模型推理,以及部署接口给Android、微信小程序等客户端调用,注意这里只接受文本类型的模型,实际文心4.5也有多模态的模型。

阅读全文
Android部署MediaPipe自定义手势识别模型
2025-07-05 121 阅读 TensorFlow Android mediapipe

本项目基于Google MediaPipe和Android CameraX技术栈,实现了一个高性能的实时手势识别Android应用。项目采用了MediaPipe最新的Gesture Recognition API,支持多种手势类型的识别,包括竖大拇指、胜利手势、张开手掌等常见手势,同时具备实时手部关键点检测和绘制功能。

阅读全文
MediaPipe自定义手势识别训练模型
2025-07-05 202 阅读 TensorFlow Android mediapipe

MediaPipe是Google开源的一个用于构建感知管道以处理视频、音频等时间序列数据的框架。其中MediaPipe Hands是一个高性能的手部关键点检测解决方案,能够在移动设备上实时检测手部关键点。

阅读全文
一个由Python开发的工具网站
2025-07-05 119 阅读 后端 Python

本文章要介绍的是一个包含了诸多功能的工具网站,这个网站使用的是Python作为开发语言。里面包含了文档工具,pdf工具,图片工具,音频工具,视频工具,语音工具,还有编程工具等等,这些都是工作或者学习中会使用遇到的工具。

阅读全文
快速从零部署一个DeepSeek-R1服务

这里使用最简单的几条命令介绍如何部署DeepSeek-R1的服务,默认已经安装了Anaconda,使用的是vllm框架,国内也可以轻松部署。

阅读全文
快速训练猫狗声音分类模型

本文介绍了如何使用PyTorch和macls库快速进行声音分类训练与推理。首先,通过Anaconda创建Python3.11虚拟环境,并安装PyTorch 2.5.1 GPU版本及macls库。接着,准备数据集,提供下载链接或自定义格式。训练部分仅需三行代码即可完成模型训练、优化和保存。推理环节则加载预训练模型并进行预测。框架支持多种声音分类模型,方便不同场景需求。

阅读全文
快速使用MASR V3版部署语音识别框架

这个框架看起来非常全面且易用,涵盖了从数据准备到模型训练再到推理等多个环节。为了帮助读者更好地理解和使用该框架,我会对每个部分进行详细解释,并提供一些示例代码。 ### 1. 环境搭建 首先需要安装必要的依赖包。假设你已经创建了一个虚拟环境并激活它: ```sh pip install paddlepaddle==2.4.0 -i https://mirror.baidu.com/pypi/

阅读全文
快速使用PPASR V3版部署语音识别框架

这个详细介绍展示了如何使用PaddleSpeech框架进行语音识别任务的开发与部署过程。以下是对你提供的信息的一些补充和建议: 1. **安装环境**:确保你的环境中已经安装了必要的依赖项,包括PaddlePaddle、PaddleSpeech等库。可以通过pip命令来安装这些库。 2. **数据预处理**: - 你可能需要对原始音频进行预处理步骤,如采样率调整、噪声去除等。

阅读全文
基于大语言模型实现文本端点检测

本文介绍了使用大语言模型进行文本端点检测的方法,以改进语音对话中的语音活动检测(VAD)。通过训练一个微调后的模型来预测句子是否完整,可以更准确地判断用户的意图。具体步骤包括: 1. **原理与数据准备**:利用大语言模型的文本生成功能,基于预定义的数据集和特定格式进行微调。 2. **微调模型**:使用LLaMA-Factory工具进行训练,并选择合适的提示模板及优化后的数据格式。 3. **

阅读全文
基于Pytorch实现的说话人日志(说话人分离)

本文介绍了基于Pytorch实现的声纹识别框架(`VoiceprintRecognition_Pytorch`)的说话人日志功能,支持多种先进的模型和数据预处理方法。通过执行`infer_speaker_diarization.py`脚本或使用GUI界面程序,可以对音频进行说话人分离并显示结果。输出包括每个说话人的起止时间和身份识别信息(需先注册)。此外,文章还提供了在Ubuntu系统中解决中文名

阅读全文
YeAudio音频工具的介绍和使用
2024-08-29 409 阅读 语音 音视频 语音识别 Python FFmpeg

这些类定义了各种音频数据增强技术。每个类都负责一种特定的数据增强操作,并且可以通过设置不同的参数来控制增强的程度和类型。以下是对每个类的详细描述: ### 1. **SpecAugmentor** - **功能**: 频域掩蔽和时域掩蔽 - **主要参数**: - `prob`: 数据增强的概率。 - `freq_mask_ratio`: 频域掩蔽的比例(例如0.15意味着在频谱上随机选

阅读全文
Ubuntu安装Docker并支持使用GPU
2024-08-29 426 阅读 后端 Ubuntu Docker eureka

本文介绍了使用阿里云镜像源安装和配置Docker,并支持英伟达GPU使用。首先添加阿里云GPG密钥并设置仓库,更新apt源后安装Docker。接着在`/etc/docker/daemon.json`中添加国内镜像源地址并重启Docker服务进行配置。然后通过curl命令下载并安装nvidia-container-toolkit,并将其配置为Docker运行时,最后测试是否支持GPU使用。 主要步

阅读全文
Ubuntu22.04使用/etc/rc.local开机启动程序
2024-07-02 414 阅读 后端 Ubuntu

本文介绍了在Ubuntu20.04或22.04系统中使用`/etc/rc.local`实现开机启动程序的方法。需编辑`/lib/systemd/system/rc-local.service`文件添加配置、创建并赋予执行权限于`/etc/rc.local`,创建服务的软链接,并启用相关服务。通过上述步骤后,重启设备可检测是否成功实现开机启动,若在指定路径下生成了包含“测试成功”的日志文件,则说明设

阅读全文
夜雨飘零·千问:解答您无尽的疑问

夜雨飘零·千问启动器是一款高效便捷的大语言模型启动工具。支持Windows系统,需NVIDIA显卡且驱动版本在516.01以上。启动器内置多种规格的模型,适用于不同场景需求,最小仅需1G显存。 界面分为三部分:启动页面、聊天页面和日志页面。启动页面用于选择并加载模型文件(本地无时自动下载),点击加载后无缝切换至聊天页面进行互动;聊天页面支持随时提问,模型即时回复提供智能对话体验;日志页面记录使用

阅读全文
鸿蒙应用开发-录音保存并播放音频

你的代码示例展示了如何在鸿蒙系统中实现音频录制和播放功能。下面是对代码的总结和一些改进建议: ### 总结 1. **权限申请**: - 在启动录音之前,需要先请求用户授权。 - 使用 `requestPermissionsFromUser` 方法来获取用户的许可。 2. **录音功能**: - 使用 `startRecord` 开始录制音频,并将文件保存到指定路径。

阅读全文
鸿蒙应用开发-录音并使用WebSocket实现实时语音识别

你的代码实现了一个使用WebSocket进行实时语音识别的完整示例。下面是对整个项目的一些补充和优化建议,以确保项目的健壮性和可维护性。 ### 1. 权限检查和提示 在请求权限时,可以提供更详细的提示信息,并且可以在用户拒绝授权后给出合理的操作建议或引导用户前往设置页面进行手动授权。 ```javascript reqPermissionsAndRecord(permissions: Ar

阅读全文
鸿蒙应用开发-自定义可删除列表弹窗

该应用实现了自定义列表弹窗功能,支持添加、删除和确认任务。具体实现如下: 1. **实体类**:`Intention` 类用于定义任务项。 2. **数据源类** (`IntentionDataSource`) :管理任务列表的数据操作,包括增删查改及通知监听器更新。 3. **自定义弹窗组件** (`AddIntentionDialog`) :展示当前的任务列表,并提供删除和确认按钮。点击删除

阅读全文
鸿蒙应用开发-仿微信聊天对话对话信息列表

该示例展示了如何使用ArkTS创建一个类似微信的聊天应用界面。页面结构包括一个可滚动的消息列表和一个按钮,用于动态添加新消息。 核心代码如下: 1. `Msg` 类定义了消息类型(发送或接收)。 2. `MsgDataSource` 类实现了数据源接口,管理消息列表,并提供增删操作。 3. 页面中使用 `List` 控件显示消息列表,通过 `LazyForEach` 在用户滚动时动态加载新消息。

阅读全文
鸿蒙应用开发-发送POST请求并获取结果

该代码用于通过POST请求向服务器发送数据并解析JSON响应。核心功能包括: 1. 使用`http.createHttp().request()`方法,以异步方式发送POST请求。 2. 设置请求头和发送的数据。 3. 获取响应结果,并将其解析为JSON格式。 4. 解析JSON数据,提取有效信息更新界面文本。 代码结构清晰地展示了如何在HarmonyOS应用中实现HTTP请求。通过设置状态变量

阅读全文
鸿蒙应用开发-播放本地音频文件

本文档介绍了使用AVPlayer音视频播放器在HarmonyOS上实现音频播放功能。主要步骤包括:1. 创建`AVPlayer`实例并注册回调函数以处理状态变化和错误;2. 获取本地音频文件路径,通过文件系统操作打开音频文件获取文件描述符,并设置到`AVPlayer`中触发资源初始化;3. 实现状态机变化逻辑,从资源初始化到播放完成。此代码片段展示了如何在Stage模型下使用ArkTS语言实现音频

阅读全文
鸿蒙应用开发-请求语音合成服务获取音频文件

本文档描述了一个使用HarmonyOS实现的语音合成服务,通过上传文本数据并请求服务器返回音频数据。关键步骤包括创建HTTP请求、设置请求头部和数据体、处理响应数据保存至本地文件等操作。代码示例展示了如何在Ability中集成该功能,具体实现了用户输入文本后触发下载并保存为.wav格式的语音文件。需注意服务响应类型必须为`application/octet-stream`以正确获取音频流,并且只适

阅读全文
轻松识别几个小时的长音视频文件

本文介绍了搭建一个长语音识别服务的方法,使其能够处理几十分钟甚至几个小时的音频或视频。首先,需要将文件夹上传至服务器并执行编译、权限修改和启动Docker容器命令来部署服务。测试显示服务可用后,可以使用WebSocket接口或HTTP服务进行交互。 HTTP服务提供了网页界面,支持多种格式音视频上传及录制识别功能,并返回包含每句话开始和结束时间戳的文本结果。此服务简化了长音频识别流程,提高了用户

阅读全文
实时指令唤醒

本文介绍了实时指令唤醒程序的开发与使用,包括安装环境、指令唤醒、微调模型等步骤。项目基于Anaconda 3和Python 3.11运行,并依赖PyTorch 2.1.0及CUDA 12.1。用户可通过调整`sec_time`和`last_len`参数来定制录音时间与长度,同时在`instruct.txt`添加指令进行个性化设置。 程序通过`infer_pytorch.py`或`infer_on

阅读全文