对于二维随机变量，可以讨论描述与之间相互关系的数字特征。
- 定义为随机变量与的协方差，记作。
- 定义为随机变量与　　的相关系数，它是协方差的归一化。
由定义可知：
协方差的性质：
- , 为常数
协方差的物理意义：
- 协方差的绝对值越大，说明两个随机变量都远离它们的均值。
- 协方差如果为正，则说明两个随机变量同时趋向于取较大的值；如果为负，则说明一个随变量趋向于取较大的值，另一个随机变量趋向于取较小的值
- 两个随机变量的独立性可以导出协方差为零。但是两个随机变量的协方差为零无法导出独立性
  - 因为独立性也包括：没有非线性关系。有可能两个随机变量是非独立的，但是协方差为零
  - 假设随机变量。定义随机变量的概率分布函数为：
    定义随机变量，则随机变量是非独立的，但是有：
相关系数的物理意义：考虑以随机变量的线性函数来近似表示。以均方误差
来衡量以近似表达的好坏程度。越小表示近似程度越高。为求得
最好的近似，则对分别取偏导数，得到：
因此有以下定理：

（是绝对值）
的充要条件是，存在常数使得
当较大时，较小，表明随机变量和联系较紧密，于是是一个表征，之间线性关系紧密程度的量。

当时，称和不相关。
- 不相关是就线性关系来讲的，而相互独立是一般关系而言的。
- 相互独立一定不相关；不相关则未必独立。

3.3 协方差矩阵

矩：设和是随机变量
- 若存在，则称它为的阶原点矩，简称阶矩
- 若存在，则称它为的阶中心矩
- 若存在，则称它为和的阶混合矩
- 若存在，则称它为和的阶混合中心矩
因此期望是一阶原点矩，方差是二阶中心矩，协方差是二阶混合中心矩
协方差矩阵：二维随机变量有四个二阶中心矩（设他们都存在），记作：
这个矩阵称作随机变量的协方差矩阵。
设维随机变量的二阶混合中心矩 , 都存在，则称矩阵
为维随机变量的协方差矩阵。

由于因此协方差矩阵是个对称阵
通常维随机变量的分布是不知道的，或者太复杂以致数学上不容易处理。因此实际中协方差矩阵非常重要。

四、大数定律及中心极限定理

4.1 切比雪夫不等式

切比雪夫不等式：随机变量具有期望，方差 , 对于任意正数，不等式
成立

其意义是：对于距离足够远的地方（距离大于等于），事件出现的概率是小于等于；即事件出现在区间的概率大于
该不等式给出了随机变量在分布未知的情况下，事件的下限估计（如

证明：

切比雪夫不等式的特殊情况：设随机变量相互独立，且具有相同的数学期望和方差：。作前个随机变量的算术平均：，则对于任意正数有：
证明：
有切比雪夫不等式，以及趋于无穷时，可以证明。详细过程省略

4.2 大数定理

依概率收敛：设是一个随机变量序列，是一个常数。若对于任意正数有： ,则称序列依概率收敛于。记作：
依概率收敛的两个含义：
- 收敛：表明这是一个随机变量序列，而不是某个随机变量；且序列是无限长，而不是有限长
- 依概率：表明序列无穷远处的随机变量的分布规律为：绝大部分分布于点，极少数位于之外。且分布于之外的事件发生的概率之和为0
大数定理一：设随机变量相互独立，且具有相同的数学期望和方差：。则序列：依概率收敛与，即
- 这里并没有要求随机变量同分布
伯努利大数定理：设为次独立重复实验中事件发生的次数，是事件在每次试验中发生的概率。则对于任意正数有：

即：当独立重复实验执行非常大的次数时，事件发生的频率逼近于它的概率

辛钦定理：设随机变量相互独立，服从同一分布，且具有相同的数学期望：。则对于任意正数有：

这里并没有要求随机变量的方差存在
伯努利大数定理是亲钦定理的特殊情况。

4.3 中心极限定理

独立同分布的中心极限定理：设随机变量独立同分布，且具有数学期望和方差：，则随机变量之和的标准变化量:
的概率分布函数对于任意满足：

其物理意义为：均值方差为的独立同分布的随机变量之和的标准变化量，当充分大时，其分布近似与标准正态分布。即，在充分大时，其分布近似于
一般情况下，很难求出个随机变量之和的分布函数。因此当充分大时，可以通过正态分布来做理论上的分析或者计算。

Liapunov 定理：设随机变量相互独立，具有数学期望和方差：，记：。若存在正数，使得当时，
则随机变量之和的标准变化量:
的概率分布函数对于任意满足：

其物理意义为：相互独立的随机变量之和的衍生随机变量序列，当充分大时，其分布近似与标准正态分布。
这里并不要求同分布

Demoiver-Laplace 定理：设随机变量序列服从参数为的二项分布，则对于任意 , 有：

该定理表明，正态分布是二项分布的极限分布。当充分大时，可以利用正态分布来计算二项分布的概率。

五、不确定性来源

机器学习中不确定性有三个来源:
- 模型本身固有的随机性。如量子力学中的粒子动力学方程。
- 不完全的观测。即使是确定性系统，当无法观测所有驱动变量时，结果也是随机的。
- 不完全建模。有时必须放弃一些观测信息。
  - 如机器人建模中：虽然可以精确观察机器人周围每个对象的位置；但在预测这些对象将来的位置时，对空间进行了离散化。则位置预测将带有不确定性。

六、常见概率分布

6.1 均匀分布

离散随机变量的均匀分布：假设有个取值：，则均匀分布的概率密度函数(probability mass function:PMF)为：
连续随机变量的均匀分布：假设在 [a,b]上均匀分布，则其概率密度函数(probability density function：PDF)为：

6.2 二项分布

伯努利分布（二项分布）：参数为。随机变量
- 概率分布函数为：

期望：
方差：

categorical 分布：它是二项分布的推广，也称作multinoulli分布。假设随机变量，其概率分布函数为：
其中为参数，它满足，且。

6.3 高斯分布

6.3.1 一维正态分布

正态分布的概率密度函数为 :
其中为常数。

若随机变量的概率密度函数如上所述，则称服从参数为的正态分布或者高斯分布，记作。
特别的，当时，称为标准正态分布，其概率密度函数记作 , 分布函数记作

为了计算方便，有时也记作：
其中

正态分布是很多应用中的合理选择。如果某个随机变量取值范围是实数，且对它的概率分布一无所知，通常会假设它服从正态分布。有两个原因支持这一选择：
建模的任务的真实分布通常都确实接近正态分布。中心极限定理表明，多个独立随机变量的和近似正态分布。
在具有相同方差的所有可能的概率分布中，正态分布的熵最大（即不确定性最大）。

正态分布的概率密度函数性质：
- 曲线关于对称
- 曲线在时取最大值
- 曲线在处有拐点
参数决定曲线的位置；决定图形的胖瘦
若则，
有限个相互独立的正态随机变量的线性组合仍然服从正态分布。
正态分布的期望就是，方差就是
若随机变量且它们相互独立，则它们的线性组合：其中（不全是为 0 的常数）仍然服从正态分布，且：

6.3.2 多维正态分布

二维正态随机变量的概率密度为：
可以计算出:
引入矩阵：
为的协方差矩阵。其行列式为，其逆矩阵为：
于是的概率密度函数可以写作表示矩阵的转置：
其中均值决定了曲面的位置（本例中均值都为0）。标准差决定了曲面的陡峭程度（本例中方差都为1）。而决定了协方差矩阵的形状，从而决定了曲面的形状

时，协方差矩阵对角线非零，其他位置均为零。此时表示随机变量之间不相关。此时的联合分布概率函数形状如下图所示，曲面在平面的截面是个圆形：
时，协方差矩阵对角线非零，其他位置均为零。此时表示随机变量之间相关。此时的联合分布概率函数形状如下图所示，曲面在平面的截面是个椭圆，相当于圆形沿着直线方向压缩：
时，协方差矩阵对角线非零，其他位置均为零。此时表示随机变量之间完全相关。此时的联合分布概率函数形状为：曲面在平面的截面是直线，相当于圆形沿着直线方向压缩成一条直线。由于会导致除数为 0，因此这里给出：

多维正态随机变量，引入列矩阵：
为的协方差矩阵。则
记做
维正态变量具有下列四条性质：
- 维正态变量的每一个分量都是正态变量；反之，若都是正态变量，且相互独立，则是维正态变量
- 维随机变量服从维正态分布的充要条件是的任意线性组合：服从一维正态分布，其中不全为 0
- 若服从维正态分布，设是的线性函数，则也服从多维正态分布
  这一性质称为正态变量的线性变换不变性
- 设服从维正态分布，则相互独立两两不相关

6.4 指数分布

指数分布：
- 概率密度函数：

期望：
方差：

6.5 拉普拉斯分布

拉普拉斯分布：
- 概率密度函数：

期望：
方差：

6.6 狄拉克分布

狄拉克分布：假设所有的概率都集中在一点上，则对应的概率密度函数为：
其中为狄拉克函数，其性质为：
狄拉克分布的一个典型用途就是定义连续型随机变量的经验分布函数。假设数据集中有样本，则定义经验分布函数：
它就是对每个样本赋予了一个概率质量。

对于离散型随机变量的经验分布，则经验分布函数就是multinoulli分布，它简单地等于训练集中的经验频率。

经验分布的两个作用：
- 通过查看训练集样本的经验分布，从而指定该训练集的样本采样的分布（保证采样之后的分布不失真）
- 经验分布就是使得训练数据的可能性最大化的概率密度函数

6.7 多项式分布与狄里克雷分布

多项式分布的质量密度函数：
它是的多项式展开的形式
狄利克雷分布的概率密度函数：
可以看到，多项式分布与狄里克雷分布的概率密度函数非常相似，区别仅仅在于前面的归一化项
- 多项式分布是针对离散型随机变量，通过求和获取概率
- 狄里克雷分布时针对连续型随机变量，通过求积分来获取概率

6.8 混合概率分布

混合概率分布：它组合了其他几个分量的分布来组成。
- 在每次生成样本中，首先通过multinoulli分布来决定选用哪个分量，然后由该分量的分布函数来生成样本。
- 其概率分布函数为：
  其中为一个multinoulli分布，的取值范围就是各分量的编号。
前面介绍的连续型随机变量的经验分布函数就是一个混合概率分布的例子，此时
混合概率分布可以通过简单的概率分布创建更复杂的概率分布
- 一个常见的例子是混合高斯模型，其中为高斯模型。每个分量都有对应的参数
  - 有些混合高斯模型有更强的约束，如，更进一步还可以要求为一个对角矩阵。
- 混合高斯模型是一个通用的概率密度函数逼近工具。任何平滑的概率密度函数都可以通过足够多分量的混合高斯模型来逼近。

七、先验分布与后验分布

在贝叶斯学派中，先验分布+数据（似然）= 后验分布
例如：假设需要识别一大箱苹果中的好苹果、坏苹果的概率。
- 根据你对苹果好、坏的认知，给出先验分布为：50个好苹果和50个坏苹果
- 现在你拿出10个苹果，发现有：8个好苹果，2个坏苹果。
  根据数据，你得到后验分布为：58个好苹果，52个坏苹果
- 再拿出10个苹果，发现有：9个好苹果，1个坏苹果。
  根据数据，你得到后验分布为：67个好苹果，53个坏苹果
- 这样不断重复下去，不断更新后验分布。当一箱苹果清点完毕，则得到了最终的后验分布。
在这里：
- 如果不使用先验分布，仅仅清点这箱苹果中的好坏，则得到的分布只能代表这一箱苹果。
- 采用了先验分布之后得到的分布，可以认为是所有箱子里的苹果的分布。
- 先验分布时：给出的好、坏苹果的个数（也就是频数）越大，则先验分布越占主导地位。
假设好苹果的概率为，则抽取个苹果中，好苹果个数为个的概率为一个二项分布：
其中为组合数。
现在的问题是：好苹果的概率不再固定，而是服从一个分布。
假设好苹果的概率的先验分布为贝塔分布
则后验概率为：
归一化之后，得到后验概率为：
好苹果概率的先验分布的期望为：
好苹果概率的后验分布的期望为：

根据上述例子所述：
- 好苹果的先验概率的期望为
- 进行第一轮数据校验之后，好苹果的后验概率的期望为
如果将视为先验的好苹果数量，视为先验的坏苹果数量，表示箱子中苹果的数量，表示箱子中的好苹果数量（相应的，就是箱子中坏苹果的数量）。则：好苹果的先验概率分布的期望、后验概率分布的期望符合人们的生活经验。
这里使用先验分布和后验分布的期望，因为是一个随机变量。若想通过一个数值来刻画好苹果的可能性，则用期望较好。

更一般的，如果苹果不仅仅分为好、坏两种，而是分作“尺寸1、尺寸2、...尺寸” 等。则个苹果中，有个尺寸1的苹果、个尺寸2的苹果.... 个尺寸的苹果的概率服从多项式分布：
其中苹果为尺寸1的概率为，尺寸2的概率为，... 尺寸的概率为，

假设苹果尺寸的先验概率分布为狄利克雷分布：
苹果尺寸的先验概率分布的期望为：
则苹果尺寸的后验概率分布也为狄里克雷分布：
苹果尺寸的后验概率分布的期望为：

八、测度论

测度为零：非正式化的提法是，如果集合中的点的数量可以忽略不计，则该集合的测度为零。
- 如：二维空间中的直线的测度为零，而正方形的测度非零。
几乎处处相等：不满足条件的那些点组成的集合的测度为零。
假设随机变量满足，且函数满足：处处连续、可导、且存在反函数。则有：
或者等价地：

如果扩展到高维空间，则有：
并不是，这是因为引起了空间扭曲，从而导致。其实我们有：
求解该方程，即得到上述解。

九、信息论

信息论背后的原理是：从不太可能发生的事件中能学到更多的有用信息。
- 发生可能性较大的事件包含较少的信息
- 发生可能性较小的事件包含较多的信息
- 独立事件包含额外的信息
对于事件，定义自信息self-information为：
自信息仅仅处理单个输出，但是如果计算自信息的期望，它就是熵：
记作。
熵刻画了按照真实分布来识别一个样本所需要的编码长度的期望（即平均编码长度）。
如：含有4个字母 (A,B,C,D) 的样本集中，真实分布，则只需要1位编码即可识别样本。
KL散度：对于给定的随机变量 ,它的两个概率分布函数和的区别可以用 KL散度来度量：

KL散度非负。当它为0时，当且仅当 P和Q是同一个分布（对于离散型随机变量），或者两个分布几乎处处相等（对于连续型随机变量）

交叉熵cross-entropy：。
交叉熵刻画了使用错误分布来表示真实分布中的样本的平均编码长度。
刻画了错误分布编码真实分布带来的平均编码长度的增量。

概率论与随机过程

相关文章：