对于相关系数,我们从它的公式入手。一般情况下,相关系数的公式为:
\rho = \frac{Cov(X,Y}{\sigma_X\sigma_Y}ρ=σX?σY?Cov(X,Y?
相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。
既然是一种特殊的协方差,那它:
比较抽象,下面还是举个例子来说明:
首先,还是承接上文中的变量X、Y变化的示意图(X为红点,Y为绿点),来看两种情况:
很容易就可以看出以上两种情况X,Y都是同向变化的,而这个“同向变化”,有个非常显著特征:
X、Y同向变化的过程,具有极高的相似度!无论第一还是第二种情况下,都是:t1时刻X、Y都大于均值,t2时刻X、Y都变小且小于均值,t3时刻X、Y继续变小且小于均值,t4时刻X、Y变大但仍小于均值,t5时刻X、Y变大且大于均值……
可是,计算一下他们的协方差,
协方差差出了一万倍,只能从两个协方差都是正数判断出两种情况下X、Y都是同向变化,但是,一点也看不出两种情况下X、Y的变化都具有相似性这一特点。
这是为什么呢?
因为以上两种情况下,在X、Y两个变量同向变化时,X变化的幅度不同,这样,两种情况的协方差更多的被变量的变化幅度所影响了。
所以,为了能准确的研究两个变量在变化过程中的相似程度,我们就要把变化幅度对协方差的影响,从协方差中剔除掉。于是,相关系数就横空出世了,就有了最开始相关系数的公式:
\rho = \frac{Cov(X,Y}{\sigma_X\sigma_Y}ρ=σX?σY?Cov(X,Y?
那么为什么要通过除以标准差的方式来剔除变化幅度的影响呢?咱们简单从标准差公式看一下:
\sigma_X=\sqrt{E((X-\mu_x)^2)}σX?=E((X−μx?)2)
那为何要对它做平方呢?因为有时候变量值与均值是反向偏离的(见下图),X-\mu _{x}X−μx?是个负数,平方后,就可以把负号消除了。
这样在后面求平均时,每一项数值才不会被正负抵消掉,最后求出的平均值才能更好的体现出每次变化偏离均值的情况。
当然,最后求出平均值后并没有结束,因为刚才为了消除负号,把X-\mu _{x}X−μx?进行了平方,那最后肯定要把求出的均值开方,将这个偏离均值的幅度还原回原来的量级。于是就有了下面标准差的公式:
\sigma_X=\sqrt{E((X-\mu_x)^2)}σX?=E((X−μx?)2)
所以标准差描述了变量在整体变化过程中偏离均值的幅度。协方差除以标准差,也就是把协方差中变量变化幅度对协方差的影响剔除掉,这样协方差也就标准化了,它反应的就是两个变量每单位变化时的情况。这也就是相关系数的公式含义了。
同时,你可以反过来想象一下:既然相关系数是协方差除以标准差,那么,当X或Y的波动幅度变大的时候,它们的协方差会变大,标准差也会变大,这样相关系数的分子分母都变大,其实变大的趋势会被抵消掉,变小时也亦然。于是,很明显的,相关系数不像协方差一样可以在 +\infty 到-\infty+∞到-∞ 间变化,它只能在+1到-1之间变化(相关系数的取值范围在+1到-1之间变化可以通过施瓦茨不等式来证明.
总结一下,对于两个变量X、Y:
有了上面的背景,我们再回到最初的变量X、Y的例子中,可以先看一下第一种情况的相关系数:
说明第一种情况下,X的变化与Y的变化具有很高的相似度,而且已经接近完全正相关了,X、Y几乎就是线性变化的。
那第二种情况呢?
说明第二种情况下,虽然X的变化幅度比第一种情况X的变化幅度小了10000倍,但是丝毫没有改变“X的变化与Y的变化具有很高的相似度”这一结论。同时,由于第一种、第二种情况的相关系数是相等的,因此在这两种情况下,X、Y的变化过程有着同样的相似度。
原文:https://www.cnblogs.com/hushunlin/p/13675767.html