目录

夜雨飘零

记录精彩的程序人生

存档： 2022 年 01 月 (37)

基于Paddle Lite在Android手机上实现图像分类 ^有更新！

2022-01-22

Paddle Lite是飞桨基于Paddle Mobile全新升级推出的端侧推理引擎，在多硬件、多平台以及硬件混合调度的支持上更加完备，为包括手机在内的端侧场景的AI应用提供高效轻量的推理能力，有效解决手机算力和内存限制等问题，致力于推动AI应用更广泛的落地。

基于Pytorch实现的流式与非流式语音识别 ^有更新！

2022-01-22

MASR是一款基于Pytorch实现的语音识别框架，MASR致力于简单，实用的语音识别项目。可部署在服务器，Nvidia Jetson设备，未来还计划支持Android等移动设备。

基于Tensorflow2 Lite在Android手机上实现图像分类 ^有更新！

2022-01-22

Tensorflow2之后，训练保存的模型也有所变化，基于Keras接口搭建的网络模型默认保存的模型是h5格式的，而之前的模型格式是pb。Tensorflow2的h5格式的模型转换成tflite格式模型非常方便。本教程就是介绍如何使用Tensorflow2的Keras接口训练分类模型并使用Tensorflow Lite部署到Android设备上。

基于MTCNN和MobileFaceNet实现的人脸识别 ^有更新！

2022-01-22

本教程是教程是介绍如何使用Tensorflow实现的MTCNN和MobileFaceNet实现的人脸识别，并不介绍如何训练模型。关于如何训练MTCNN和MobileFaceNet，请阅读这两篇教程 MTCNN-Tensorflow 和 MobileFaceNet_TF ，这两个模型都是比较轻量的模型，所以就算这两个模型在CPU环境下也有比较好的预测速度，众所周知，笔者比较喜欢轻量级的模型，如何让我从准确率和预测速度上选择，我会更倾向于速度，因本人主要是研究深度学习在移动设备等嵌入式设备上的的部署。好了，下面就来介绍如何实现这两个模型实现三种人脸识别，使用路径进行人脸注册和人脸识别，使用摄像头实现人脸注册和人脸识别，通过HTTP实现人脸注册和人脸识别。

基于Kersa实现的中文语音声纹识别 ^有更新！

2022-01-22

本项目说是使用Keras，但使用的都是Tensorflow下的keras接口，本项目主要是用于声纹识别，也有人称为说话人识别。本项目包括了自定义数据集的训练，声纹对比，和声纹识别。

基于Pyramidbox实现的大规模人脸检测 ^有更新！

2022-01-22

PyramidBox 是一种基于SSD的单阶段人脸检测器，它利用上下文信息解决困难人脸的检测问题。如下图所示，PyramidBox在六个尺度的特征图上进行不同层级的预测。该工作主要包括以下模块：LFPN、Pyramid Anchors、CPM、Data-anchor-sampling。

Mediapipe框架在Android上的使用 ^有更新！

2022-01-22

MediaPipe是用于构建跨平台多模态应用ML管道的框架，其包括快速ML推理，经典计算机视觉和媒体内容处理（如视频解码）。下面是用于对象检测与追踪的MediaPipe示例图，它由4个计算节点组成：PacketResampler计算器；先前发布的ObjectDetection子图；围绕上述BoxTrakcing子图的ObjectTracking子图；以及绘制可视化效果的Renderer子图。

基于PaddlePaddle实现的密度估计模型CrowdNet ^有更新！

2022-01-22

CrowdNet模型是2016年提出的人流密度估计模型，论文为《CrowdNet: A Deep Convolutional Network for DenseCrowd Counting》，CrowdNet模型主要有深层卷积神经网络和浅层卷积神经组成，通过输入原始图像和高斯滤波器得到的密度图进行训练，最终得到的模型估计图像中的行人的数量。当然这不仅仅可以用于人流密度估计，理论上其他的动物等等的密度估计应该也可以。

基于PaddlePaddle实现的目标检测模型SSD ^有更新！

2022-01-22

SSD，全称Single Shot MultiBox Detector，是Wei Liu在ECCV 2016上提出的一种目标检测算法，截至目前是主要的检测框架之一，相比Faster RCNN有明显的速度优势，相比YOLO V1又有明显的mAP优势。本开源是基于PaddlePaddle实现的SSD，参考了PaddlePaddle下的models的ssd ，包括MobileNetSSD，MobileNetV2SSD，VGGSSD，ResNetSSD。使用的是VOC格式数据集，同时提供了预训练模型和VOC数据的预测模型。

Python实现常见的排序算法 ^有更新！

2022-01-22

本章介绍使用Python实现场景的几种排序算法。分别有冒泡算法、快速排序、插入排序、希尔排序、选择排序、堆排序、归并排序、计数排序、桶排序、基数排序。

双目摄像头测量距离 ^有更新！

2022-01-22

在计算机视觉中，可以通过双目摄像头实现，常用的有BM 算法和SGBM 算法等，双目测距跟激光不同，双目测距不需要激光光源，是人眼安全的，只需要摄像头，成本非常底，也用于应用到大多数的项目中。本章我们就来介绍如何使用双目摄像头和SGBM 算法实现距离测量。

基于PaddlePaddle实现声纹识别 ^有更新！

2022-01-22

本章介绍如何使用PaddlePaddle实现简单的声纹识别模型，本项目参考了人脸识别项目的做法PaddlePaddle-MobileFaceNets ,使用了ArcFace Loss，ArcFace loss：Additive Angular Margin Loss（加性角度间隔损失函数），对特征向量和权重归一化，对θ加上角度间隔m，角度间隔比余弦间隔在对角度的影响更加直接。

使用Tensorflow实现声纹识别 ^有更新！

2022-01-22

本章介绍如何使用Tensorflow实现简单的声纹识别模型，首先你需要熟悉音频分类，没有了解的可以查看这篇文章《基于Tensorflow实现声音分类》。基于这个知识基础之上，我们训练一个声纹识别模型，通过这个模型我们可以识别说话的人是谁，可以应用在一些需要音频验证的项目。

基于PaddlePaddle实现声音分类 ^有更新！

2022-01-22

本章我们来介绍如何使用PaddlePaddle训练一个区分不同音频的分类模型，例如你有这样一个需求，需要根据不同的鸟叫声识别是什么种类的鸟，这时你就可以使用这个方法来实现你的需求了。

基于Tensorflow实现声音分类 ^有更新！

2022-01-22

本章我们来介绍如何使用Tensorflow训练一个区分不同音频的分类模型，例如你有这样一个需求，需要根据不同的鸟叫声识别是什么种类的鸟，这时你就可以使用这个方法来实现你的需求了。话不多说，来干。

Android使用AIUI快速搭建智能助手 ^有更新！

2022-01-22

目前大部分的手机都有语音助手，例如小米手机的小爱同学，VIVO的小V等等，通过智能助手我们可以快速询一些资讯或者操作手机，例如询问天气，发送微信给你的好友等等。这篇文章就来介绍如何使用AIUI快速搭建类似这样的智能助手。

Android使用webrtc实现检测用户是否在说话 ^有更新！

2022-01-22

我们在Android应用做语音识别的时候，一般是用户唤醒之后开始说话。当用户超过一定的时候没有说话，就停止录音，并把录音发送到语音识别服务器，获取语音识别结果。本教程就是解决如何检测用户是否停止说话，我们使用的是WebRTC架构的源代码中的vad代码实现的。 VAD算法全称是Voice Activity Detection，该算法的作用是检测是否是人的语音，使用范围极广，降噪，语音识别等领域都需要有vad检测。webrtc的vad检测原理是根据人声的频谱范围，把输入的频谱分成六个子带：80Hz——250Hz，250Hz——500Hz，500Hz——1K，1K——2K，2K——3K，3K——4K。分别计算这六个子带的能量。然后使用高斯模型的概率密度函数做运算，得出一个对数似然比函数。对数似然比分为全局和局部，全局是六个子带之加权之和，而局部是指每一个子带则是局部，所以语音判决会先判断子带，子带判断没有时会判断全局，只要有一个通过认为是语音。