目录

夜雨飘零

记录精彩的程序人生

标签: 深度学习 (83)

《深度学习》学习笔记三——数值计算 有更新!

上溢和下溢 下溢(underflow)是一种极具毁灭性的舍入误差.当接近零的数被四舍五入为零时发生下溢 上溢(overflow)是一种极具破坏力的数值错误形式.当大量级的数被近似为$\infty$或者$-\infty$时发生上溢,进一步的运算通常会导致这些无限值变成非数字. softmax 函数(softmax function)可以对上溢和下溢进行数值稳定的一个函数,softmax函数经常用于预测与Multinoulli分布相关联的概率,定义为: 基于梯度的优化方法 大多数深度学习算法都涉及某种形式的优化.优化指的是改变$x$以最小化或最大化某个函数$f(x)$的任务.我们通常以最小化$f(x)$指代大多数最优化问题,最大化可以经由最小化算法最小化$-f(x)$来实现 我们把要最小化或最大化的函数称为目标函数(objective function)或者准则(criterion).当我们对其进行最小化时,也把它称为代价函数(cost function),损失函数(loss function)或者误差函数(error function) 导数 导数(derivative):设函数$.......

《深度学习》学习笔记二——概率论 有更新!

随机变量 随机变量(random variable)是可以随机地取不同值的变量.随机变量是可以离散的或者连续的,离散随机变量拥有有限或可数无限多的状态,连续随机变量伴随这实数值的. 概率分布 概率分布(probability distribution)用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小. 概率质量函数(probability mass function,PMF):离散型变量的概率分布可以用概率质量函数来描述,通常使用$P$表示概率质量函数 概率质量函数可以同时作用于多个随机变量.这种多个变量的概率分布被称为联合概率分布(joint probability distribution).$P({\bf x}=x,{\bf y}=y)$表示${\bf x}=x$和${\bf y}=y$同时发生的概率 一个函数$P$是随机变量$x$的PMF,必须满足以下条件: $P$的定义域必须是$x$所有可能状态的集合 $\forall x \in {\bf x},0 \leq P(x) \leq 1$ 不可能发生的事件概率为0,一定发生的事件概率为1 $\sum _{x.......

《深度学习》学习笔记一——线性代数 有更新!

标量、向量、矩阵和张量 标量(scalar):一个标量就是一个单独的数,它不同与线性代数中研究其他大部分对象(通常是多个数的数组)。我们用斜体表示标量。标量通常被赋予小写的变量名称,比如:$x$ 向量(vector): 一个向量是一列数。这些数都是有序排列的。通过次序中的索引,我们可以确定每个单独的数。通常我们赋予向量粗体的小写变量名称.比如:${\bf x}$ $$ {\bf x}=\left[\begin{matrix} x_1 \ x_2 \ \vdots \ x_n \end{matrix}\right]\tag{1} $$ 矩阵(matrix):矩阵是一个二维数组,其中的每一个元素由两个索引(而非一个)所确定。我们通常会赋予矩阵粗体的大写变量名称,比如:${\bf A}$ $$ {\bf A}=\left[\begin{matrix} A_{1,1}&A_{1,2} \ A_{2,1}&A_{2,2} \end{matrix}\right]\tag{2} $$ 张量(tensor):在某种情况下,我们会讨论坐标超过两维的数组。一般的,一个数组中的元素....