一、重点
回归分析就是利用样本(已知数据),产生拟合方程,从而(对未知数据)迚行预测
二、关系
1. 函数关系
确定性的关系:y=3+10*x
2. 相关关系
非确定性关系,例如你的物理成绩和化学成绩的关系(比如取决于数学运用能力):
相关系数:使用相关系数去判断是否适合去做回归模型,来衡量
Xi,Yi即第n次取样,也称作观测值
:平均值
其范围在[-1,1] (柯西不等式可证),正:正相关否则负相关,越是接近1,越适合使用直线进行拟合
三、 一元线性回归模型
1. 误差平方和
假设线性回归模型为y=a+bx
即每个观测点纵坐标与方程上该点值的差的平方的和,这样在观测点已知时使得RSS最小去求a和b的值,即极值问题
求对a和b的偏导数使其等于0就可以算出a与b的值,求得回归参数:
2. 例子(R):
>y=c(61,57,58,40,90,35,68)//y由7个样本组成的向量
>x=c(170,168,175,153,185,135,172)
>plot(x,y)//画出散点图,如图
>a=lm(y~x+1)//构建模型,假设y=ax+b
>summary(a)//查看结果
汇总数据的解释:
预测:
> z=data.frame(x=185)
> predict(a,z)
如果规定模型必须过原点:
>w=lm(y~x-1)
3. 其它命令
求模型系数
> coef(a)
提取模型公式
> formula(a)
计算残差平方和
> deviance(a)
计算残差
> residuals(a)
原文:http://blog.csdn.net/jordandandan/article/details/44591681