你们好,最近小活发现有诸多的小伙伴们对于协方差矩阵的迹,协方差矩阵这个问题都颇为感兴趣的,今天小活为大家梳理了下,一起往下看看吧。
1、 我们发现样本方差的无偏估计可以通过以下公式获得:
2、 但是方差只能用来解释平行于特征空间轴的数据传播。考虑图2所示的二维特征空间:
3、 对于这些数据,我们可以计算出X方向的方差和Y方向的方差。但是数据的水平传输和垂直传播并不能解释明显的对角线关系。图2清楚地表明,平均而言,如果一个数据点的x值增加,y值也会增加。
4、 这产生了正相关。这种相关性可以通过将方差的概念扩展到所谓的数据“协方差”来获得:
5、 如果x和y正相关,那么y和x也正相关。换句话说。所以协方差矩阵永远是一个方差在对角线上,协方差在对角线外的对称矩阵。
6、 二维正态分布数据完全可以用它的均值和2x2协方差矩阵来解释。类似地,一个3x3协方差矩阵用于捕获三维数据的传播,一个NxN协方差矩阵用于捕获n维数据的传播。
7、 图3显示了如何定义数据的整体形状:
8、 协方差矩阵的特征值分解
9、 在下一节中,我们将讨论协方差矩阵如何被解释为将白色数据转换为我们观察到的数据的线性运算。然而,在进入技术细节之前,
10、 对如何唯一确定特征向量和特征值协方差矩阵(数据形状)有一个直观的认识是非常重要的。
11、 如图3所示,协方差矩阵定义了数据的分布(方差)和方向(协方差)。所以,如果我们要用一个向量来表示,向量的大小协方差矩阵,
12、 我们应该简单的去寻找指向数据最大传播方向的向量,它的大小等于这个方向的传播(方差)。
13、 如果我们定义这个向量为,那么我们的数据d到这个向量的映射为,映射数据的方差为。既然要找一个指向方差最大方向的向量,就要选择它的分量,使映射数据的协方差矩阵尽可能大。
14、 任何最大化形式的函数,其中是归一化的单位向量,都可以用所谓的瑞利商来表示。通过设置最大特征向量等于矩阵,可以得到瑞利商的最大值。
15、 换句话说,协方差矩阵的最大特征向量总是指向数据最大方差的方向,并且该向量的幅度等于相应的特征值。第二大特征向量总是正交于最大特征向量,并指向第二大数据的传播方向。
16、 现在,让我们来看看一些例子。在文章《特征值和特征向量》 中http://blog.csdn.net/u010182633/article/details/45921929,
17、 我们看到一个线性变换矩阵T完全由它的特征向量和特征值定义。应用到协方差矩阵,这意味着:
18、 如果我们数据的协方差矩阵是对角矩阵,使得协方差是零,那么这意味着方差必须等于特征值。如图4所示,特征向量用绿色和品红色表示,特征值显然等于协方差矩阵的方差分量。
19、 然而,如果协方差矩阵不是对角的,使得协方差不为零,那么情况稍微更复杂一些。特征值仍代表数据最大传播方向的方差大小,协方差矩阵的方差分量仍然表示x轴和y轴方向上的方差大小。但是,
20、 因为数据不是轴对齐的,所以这些值不再与图5所示的相同。
21、 通过比较图5与图4,可以清楚地看到特征值表示沿特征向量方向数据的方差,而协方差矩阵的方差分量表示沿轴的传播。如果没有协方差,则这两个值是相等的。
22、 图6所示的数据是D
23、 在下面的段落中,我们将讨论协方差矩阵与线性变换矩阵T=RS之间的关系。
24、 让我们先从未缩放(缩放相当于1)和未旋转的数据开始。在统计中,这往往为“白数据’,因为它的样本是从标准正态分布引出的,因此对应于白(不相关)噪声:
以上就是协方差矩阵这篇文章的一些介绍,希望对大家有所帮助。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!