首页 > 其他 > 详细

机器学习-回归中的相关度和R平方值

时间:2019-03-02 16:15:53      阅读:261      评论:0      收藏:0      [点我收藏+]

1. 皮尔逊相关系数(Pearson Correlation Coefficient)

     1.1 衡量两个值线性相关强度的量

     1.2 取值范围[-1, 1]

            正相关:>0, 负相关:<0, 无相关:=0

      1.3 要理解Pearson相关系数,首先要理解协方差(Covariance),协方差是一个反映两个随机变量相关程度的指标,如果一个变量跟随着另一个变量同时变大或者变小,那么这两个变量的协方差就是正值,反之相反,公式如下: 

                            技术分享图片

 

             方差:

                            技术分享图片

             Pearson相关系数公式如下:

                            技术分享图片

                           技术分享图片

            注意:有了协方差,为什么还使用皮尔逊相关系数?虽然协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关),但是协方差值的大小并不能很好地度量两个随机变量的关联程度,例如,现在二维空间中分布着一些数据,我们想知道数据点坐标X轴和Y轴的相关程度,如果X与Y的相关程度较小但是数据分布的比较离散,这样会导致求出的协方差值较大,用这个值来度量相关程度是不合理的。 
           为了更好的度量两个随机变量的相关程度,引入了Pearson相关系数,其在协方差的基础上除以了两个随机变量的标准.

2. 计算方法举例:

     x      y

     1     10

     3     12

     8     24

     7     21

     9     34

    在Excel中计算:

技术分享图片

3. 其他例子

    技术分享图片

4. R平方值

    4.1 定义:决定系数,反应因变量的全部变异能通过回归关系被自变量解释的比例。

                    也就是说,对于已经建模的模型,多大程度上可以解释数据

   4.2 描述:如R平方为0.8,则表示回归关系可以解释因变量80%的变异。换句话说,如果我们控制自变量不变,则因变量的变异程度会减少80%。

   4.3 简单线性回归:R^2 = r * r (r为皮尔逊相关系数)

         多元线性回归:

                      技术分享图片

                                        技术分享图片

 

技术分享图片

        R平方也有局限性:R平方随着自变量的增加会变大,R平方和样本量是有关系的。因此,我们要对R平方进行修正。修正方法:

                                                技术分享图片

        实际中一般会选择修正后的R平方值对线性回归模型对拟合度进行评判

 

机器学习-回归中的相关度和R平方值

原文:https://www.cnblogs.com/lyywj170403/p/10460238.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!