1.数据类型

现实中我们可能对同一种variable可以用不同的type表示。例如“失信状态”中可以用1,2,3来表示失信次数,也可以用True,False表示是否失信。我们在数据清洗过程中可能要转换相应的数据类型。
2.单变量分析
对于每个单变量,我们要寻找数据的一些特点

3.多变量分析
描述数据在两个或者更多特征之间的关系
- Scatter Plot:是一种图表或数学图表,使用笛卡尔坐标来显示一组数据的两个变量的值。如果点的图形从左下角向右上角倾斜,则表示所研究的变量之间存在正相关关系。如果圆点的图案从左上角向右下角倾斜,则表示负相关
- Correlation plot :它用于同时研究多个变量之间的相关性,并在数据表中突出显示最相关的变量。
- Heat map: 是数据的图形表示,其中矩阵中包含的各个值用颜色表示
02_数据探索
原文:https://www.cnblogs.com/ziwh666/p/12325838.html