首页 > 其他 > 详细

EDA_2快速性分析

时间:2021-04-12 18:01:08      阅读:16      评论:0      收藏:0      [点我收藏+]

EDA_2快速性分析

一 pandas-profiling模块

1 方法说明

在pandas中 df.describe() 是比较基础的探索性数据分析函数,而pandas_profiling则是在DataFrame的基础上扩展,用于快速数据分析。

2 方法格式

#1 导入模块
import pandas_profiling 

#2 读取数据集
df = pd.read_excel("kenseven.xlsx")

#3 生成报告
pandas_profiling.ProfileReport(df)

#4 另存为.html文件
profile = pandas_profiling.ProfileReport(df)
profile.to_file(‘保存路径.html‘)

"""说明:
问题:保存网页的时候有报错,提示没有对应字体
解决:不影响另存为.html文件
"""

3 报告模块

pandas-profiling EDA报告包括:

  1. 数据整体概览
  2. 变量探索
  3. 相关性计算
  4. 缺失值情况
  5. 抽样展示

数据整体概览:Overview

技术分享图片

变量探索:Variables

技术分享图片

相关性计算:Correlations

技术分享图片

这里为大家提供5种相关性系数。

缺失值情况:Missing values

技术分享图片

pandas-profiling为我们提供了四种缺失值展现形式。

数据样本展示:Sample

技术分享图片

4 关键字解释

1概要:Essentials

类型 type
唯一值 unique values
缺失值 missing values
2分位数统计像 Quantile statistics like

最小值,minimum value
中位数, median
最大值, maximum
值域,  range
四分位距 interquartile range
3描述性统计像

均值,mean
众数,mode
标准差,standard deviation
和,sum
绝对中位差,median absolute deviation
变异系数,coefficient of variation
峰值,kurtosis
偏度系数,skewness
最频繁出现的值 Most frequent values

直方图/柱状图  Histogram
相关性,Spearman
突出强相关的变量,Correlations highlighting of highly correlated variables
Spearman, Pearson 和Kendall模型
缺失值矩阵 Missing values matrix
计数,count
热图 heatmap 

缺失值的树状图 dendrogram of missing values

EDA_2快速性分析

原文:https://www.cnblogs.com/PythonSQL/p/14648238.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!