线性模型的自变量的的类型
线性回归的分析思路
1.前提条件考察
2.准备工作——自变量变换
3.单因素分析
4.多因素分析
5.模型评价——模型对实际数据的拟合效果评价
6.模型诊断
共线性诊断
多重共线性——多个自变量之间存在高度相关
共线性诊断指标
方差扩大因子(VIF):大于10,表示共线性很强
容忍度(TOL):VIF的倒数,小于0.1表示共线性很强
条件指数:大于10:存在共线性;大于30:存在严重的共线性,
如果某几个自变量的变异比列同时比较大,则这几个变量之间存在较强的共线性
(看条件指数的数据,不必拘泥于同一行,而是可以跨行,找出比较大的几个就可以)
异常点诊断
7.模型修饰及在评价
8.建立模型
1.散点图——判断是否符合线性回归
/*简单散点图*/
Proc sgplot;
Scatter x= y=;
Run;
/*偏残差图*/
Proc reg;
Model y=自变量/partial;/*partial 为校正变量,可输出综合效应*/
Run;
2.利用Box-Cox变换 ——主要是对因变量进行变换
p如果对因变量变换,不清楚应该用何种形式,可以用proc transreg过程进行探索
proc transreg;
model boxcox(因变量)=identity(自变量);
run;
/*
当λ=2, 二次变换
当λ=1, 线性变换
当λ=0.5,平方根变换
当λ=0, 对数变换
当λ=-1, 倒数变换
*/
如何确定哪种变量变换方式更好
应用场景——异方差
判断异方差的方法
1.残差图
2.散点图
3.White检验
是检验异方差的经典方法之一
PROC REG;
MODEL y=x/spec;
/*spec选项,执行验证方差齐性的White检验*/
/*当P<0.05,可以拒绝方差齐性的无效假设,
认为方差不齐
*/
加权最小二乘法的SAS实现
1.如果已知方差,可直接用方差的倒数作为权重
data aa;
input m y x var; /*var为方差*/
wt=1/var; /*wt为方差的倒数*/
cards;
1 4.320 -0.300 26.098
2 2.011 1.371 4.041
3 9.024 6.343 66.021
4 20.381 12.586 322.494
5 30.561 20.714 521.314
6 31.671 25.000 505.093
7 22.966 27.557 223.634
8 9.474 26.643 44.062
9 9.120 22.400 68.796
10 8.246 15.371 67.415
11 5.506 9.229 10.281
12 3.799 1.800 6.016
;
proc reg;
model y=x;
weight wt;
run;
2.如果方差未知,可用残差绝对值或平方的倒数
proc reg;
model y=x;
output out=bb residual=res; /*产生数据集bb,包含残差变量*/-
run;
data res;
set bb;
wt=1/(res)**2;
proc reg data=res;
model y=x;
weight wt;
run;
应用场景
偏最小二乘回归的SAS实现
data fh;
input height weight cir xin;
cards;
95 14 54 50
92 13 52 42
89 13 53 36
158 52 79 99
119 20 55 68
113 18 53 61
125 22 59 67
91 14 48 36
93 13 50 44
92 11 53 32
154 55 80 95
163 54 82 87
130 25 59 63
98 17 51 51
99 15 51 54
;
proc reg;
model xin=height weight cir/collin tol vif;
run;
PROC PLS cv=one method=pls cvtest;
/*调用PLS程序*/
/* cv=one 表示采用舍一法进行交叉确认
/* method=pls 表示采用偏最小二乘回归法提取因子
/* cvtest 表示对留一交叉确认进行统计学检验。*/
MODEL xin=height weight cir/solution;
/*Solution 选项给出模型的回归系数,包括中心化系数和原始变量系数*/
RUN;
基本概念
应用场景
常用估计方法
SAS程序实现
DATA example7_10;
INPUT x y;
CARDS;
6.8 746
7.8 553
8.7 562
8.7 563
8.9 570
19.5 575
10.1 581
10.2 605
10.3 607
10.4 621
11.1 624
12.4 626
13.3 632
13.1 640
13.2 656
;
proc sgplot; /*画散点图*/
scatter x=x y=y;
run;
proc reg;
model y=x/r influence;/*异常点的检测*/
run;
proc robustreg method=mm;
/*调用稳健回归命令,方法选择MM估计*/
model y=x/diagnostics leverage;
/*对变量进行异常点和杠杆点诊断*/
run;
结果解读
杠杆点主要根据稳健MCD距离(robust MCD distance)判断,当该值大于诊断界值(cutoff)时,即判断为杠杆点,并以“*”标识;
离群点主要根据稳健残差(robust residual)判断,当该值的绝对值
大于诊断界值(cutoff)时,即判断为离群点,并以“*”标识
拟合优度“Goodness - of - Fit”评价的四个指标中,R- Square 取值越大、另三个评价指标取值越小,
并且,回归系数的“标准误”越小越好,该估计方法的拟合效果就越好
原文:https://www.cnblogs.com/yangzilaing/p/13216787.html