数据分析中主要有两类变量:
数据探索中,主要计算数据的一些统计量,并通过图和表的形式进行总结
一般来说,得到数据后首先检查数据的质量,如:每个变量的取值是否合乎数据定义,通常通过计算数据的一些统计量来检查数据是否存在问题。另一个问题是数据通常存在缺失值,进行数据探索时要计算每个变量是否存在缺失值,以及缺失值的比例等。
统计变量包括两个方面:
对分类变量:
对数值变量:
实际建模中,数据预处理是非常关键的一步,直接影响最终模型结果的好坏,大多数情况下,原始数据都不宜直接用来建模,需要对数据进行预处理后才可以建模,数据预处理包括:
基于树的模型对数据不是特别敏感,线性回归对数据敏感
第一步:明确缺失数据的重要性,如果对目标值的预测不重要,直接删除改变量,如果很重要,第一种方法通常采用能够处理缺失数据的算法进行建模(如:基于决策树的模型),第二种方法是缺失值填充。
缺失值填充的常用方法:
k近邻进行填充:假设样本X_i的第j个变量缺失记为x_ij,目标就是要估计x_ij,首先利用x_i中没有缺失的变量,找到最相识的k个样本,并用这k个样本的第j个变量的平均值作为x_ij的估计值,缺失算法填充对主要的控制参数k不敏感
对数值变量,每个变量都有自己的单位,为了解决这个问题,通常先进行数据标准化,经过标准化后的数据,均值都是0,标准差都是1
X_std = (X_i - X_mean)/X_标准差
归一化是把数据变为【0,1】之间:X_a = (X-X_min)/(X_max-X_min)
主成分分析PCA降维,但是新的变量是原来变量的线性组合,这样一般难以解释新变量
启发式方法,计算变量之间两两之间的相关系数,接近1或者-1,就需要删除其中一个变量,实际操作中可以要求两个变量之间相关系数的绝对值低于一个阀值(如0.75)
如:变量中有质量和体积,就可以新增密度,删除质量和体积等
决策树模型能够较好的处理分类变量,线性回归和逻辑回归不能之间处理分类变量,通常把分类变量转化为多个哑变量,取值只能为0和1,如果一个分类变量有k中不同的取值,可以建立k-1个新的哑变量来代替,如果一个分类变量不同取值太多,需要进行简化,如:体检打分:按照从差到好A、B、C、D、E和F,为了缩小变量取值范围,A、B=差 ,C、D=中,E、F=好
离主流数据很远的数据点定义为离群数据,一种常用的处理方法是对数据分组,具体是把所有样本变量的取值从小到大排序,然后分成若干组,然后对应组中数据的均值或者中位数来对他进行修正,常用的分组方法有:
1、直方图、茎叶图显示样本分布的有效方法
2、柱状图通常用来研究分类变量不同取值的分布情况
3、箱线图:下四分位数、上四分位数、中位数
4、散点图研究变量之间的关系, x和y为不同的两个变量
原文:https://www.cnblogs.com/jp-mao/p/10505107.html