首页 生活指南 正文内容

协方差的意义(协方差和方差的关系)

阿立指南 生活指南 2022-10-19 15:10:06 230 0

协方差分析的意义

当研究者知道有些协变量会影响因变量,却不能够控制和不感兴趣时(当研究学习时间对学习绩效的影响,学生原来的学习基础、智力学习兴趣就是协变量),可以在实验处理前予以观测,然后在统计时运用协方差分析来处理。

将协变量对因变量的影响从自变量中分离出去,可以进一步提高实验精确度和统计检验灵敏度。

方差是用来度量单个变量 “自身变异”大小的总体参数,方差越大,该变量的变异越大;

协方差是用来度量两个变量之间 “协同变异”大小的总体参数,即二个变量相互影响大小的参数,协方差的绝对值越大,两个变量相互影响越大。

对于仅涉及单个变量的试验资料,由于其总变异仅为“自身变异”(如单因素完全随机设计试验资料,“自身变异”是指由处理和随机误差所引起的变异),因而可以用方差分析法进行分析;

对于涉及两个变量的试验资料,由于每个变量的总变异既包含了“自身变异”又包含了“协同变异”(是指由另一个变量所引起的变异),须采用协方差分析法来进行分析,才能得到正确结论。

相关系数和协方差所表示的意义有什么区别

相关系数和协方差所表示的意义区别:含义不同,作用不同。

一、含义不同:

协方差是一个用于测量投资组合中某一具体投资项目相对于另一投资项目风险的统计指标,通俗点就是投资组合中两个项目间收益率的相关程度,正数说明两个项目一个收益率上升,另一个也上升,收益率呈同方向变化。如果是负数,则一个上升另一个下降,表明收益率是反方向变化。

二、作用不同:

协方差的绝对值越大,表示这两种资产收益率关系越密切;绝对值越小表明这两种资产收益率的关系越疏远。

由于协方差比较难理解,所以将协方差除以两个投资方案投资收益率的标准差之积,得出一个与协方差具有相同性质却没有量化的数。这个数就是相关系数。计算公式为相关系数=协方差/两个项目标准差之积。

表示

相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。

以上内容参考:百度百科-相关系数

协方差(Covariance)

概率论与数理统计中,最基本概念就是均值、方差、标准差,n个样本xi的集合X。

具体公式描述为:

        样本集合X的中间点

        样本集合的各个样本点到均值的距离平方之和,描述了集合的离散程度,也即样本整体的离散幅度。

        标准差的平方

        两个特征之间的相关关系。

        均值、方差、标准差几个统计量只描述了一维数据,现实中数据通常都不是简单的一个特征能够描述,都是多个特征描述,而且不同特征之间会具有相关关系。例如一个理科学生的成绩在数学物理两方面上,就是两个特征,而且这两个特征是有相关关系的。

        取很多学生构建成一个集合,统计发现如果数学越好,一般来说物理也就越好。从统计数据上看到, 数学 物理成绩之间具有相关关系

怎么描述?---用协方差描述

        两个特征X Y,均值为X’ Y’。 如果样本的X高于均值, 一般Y也高于均值。相反如果X低于均值Y也低于均值,则用如下公式描述两个特征之间的相关关系:

1    在xi x’,  yi y’时,结果 0

2    在xi x’,  yi y’时,结果 0

3    在xi x’, yi y’时,结果 0

4    在xi x’, yi y’时,结果 0

        如果统计集合所有样本的特征 xi yi 都是同时增减的话,那么1 4情况就多,cov(x, y)就会是 0且相关性越大cov(x, y)越大。

        相反如果xi yi 相反增减,那么2 3情况就多, cov(x, y)就会 0且逆相关性越大cov(x, y)越小。

        而如果xi yi没有关系,那么随意发生1 2 3 4情况,那么cov的分子因为求和就会逐渐趋近0那么cov绝对值就越小

这样这个公式就描述了一个样本的特征之间的相关关系.

        如果理科成绩还要看化学特征的关系那么就会有一个样本是x y z。而协方差能够描述的是两个特征之间的关系。想要描述两两之间关系,

Cov(i, j) = Cov(dimi, dimj)

形成一个矩阵。

        描述n个特征两两之间的相关关系。 x-x   x-y   x-z   y-z。

        直接观察就发现,Cov 协方差矩阵一定是个对角矩阵。 cov(x, y) == cov(y, x)。

        今天突然发现,原来协方差矩阵还可以这样计算,先让样本矩阵中心化,即每一维度减去该维度的均值,使每一维度上的均值为0,然后直接用新的到的样本矩阵乘上它的转置,然后除以(N-1)即可。其实这种方法也是由前面的公式推导而来,只不过理解起来不是很直观。

        理解协方差矩阵的关键就在于牢记它计算的是一个样本的不同特征之间的协方差,而不是不同样本之间。

        相关系数= X Y的协方差/ (X标准差*Y标准差) 理解为归一化标准化后的特殊的协方差。

特点

    1 反应两个特征的相关关系(同向逆向无关(貌似是线性关系))

    2 由于是标准化的协方差,消除了两个变量变化幅度的影响,纯净的反应了两个变量的相关关系。

思考

如果数据集两个特征x y.

        X是100sin(0 – 180)取其中五个点

        Y是100sin(0 – 180)取其中五个点

        (x1,y1) (x2,y2)(x3,y3) (x4,y4) (x5,y5)

        这时两者的协方差为10000(未计算).相关性很大

而如果数据集两个特征x y.

        X是100sin(0 – 180)取其中五个点

        Y是1sin(0 – 180)取其中五个点

         (x1,y1) (x2,y2)(x3,y3) (x4,y4) (x5,y5)

         这时两者的协方差为1(未计算) .相关性很小

         虽然协方差相差巨大,但是实际上两者单纯相关性来说是完全一样的,这时候如果除以自身幅值标准化一下,两者的值就是相等的 。

这时相关系就登场了, COV(X,Y) / (X标准差*Y标准差)  --- 纯净的相关性。

比较协方差与相关系数

    协方差变化在正无穷到负无穷

    相关系数变化在+1 -1.

        如果相关系数= 1,表示完全正相关,X增大一倍Y也增大一倍。这就是线性相关。

参考

如何通俗易懂理解协方差与相关系数

协方差的意义和计算公式

协方差的意义(协方差和方差的关系) 第1张

欢迎 发表评论:

文章目录
    搜索