EDA_2快速性分析

时间：2021-04-12 18:01:08 阅读：26 评论：0 收藏：0 [点我收藏+]

EDA_2快速性分析

一 pandas-profiling模块

1 方法说明

在pandas中 df.describe() 是比较基础的探索性数据分析函数，而pandas_profiling则是在DataFrame的基础上扩展，用于快速数据分析。

2 方法格式

#1 导入模块
import pandas_profiling 

#2 读取数据集
df = pd.read_excel("kenseven.xlsx")

#3 生成报告
pandas_profiling.ProfileReport(df)

#4 另存为.html文件
profile = pandas_profiling.ProfileReport(df)
profile.to_file(‘保存路径.html‘)

"""说明:
问题:保存网页的时候有报错,提示没有对应字体
解决:不影响另存为.html文件
"""

3 报告模块

pandas-profiling EDA报告包括:

数据整体概览
变量探索
相关性计算
缺失值情况
抽样展示

数据整体概览：Overview

技术分享图片

变量探索：Variables

技术分享图片

缺失值情况：Missing values

技术分享图片

pandas-profiling为我们提供了四种缺失值展现形式。

数据样本展示：Sample

技术分享图片

4 关键字解释

1概要：Essentials

类型 type
唯一值 unique values
缺失值 missing values

2分位数统计像 Quantile statistics like

最小值，minimum value
中位数, median
最大值, maximum
值域，  range
四分位距 interquartile range

3描述性统计像

均值，mean
众数，mode
标准差，standard deviation
和，sum
绝对中位差，median absolute deviation
变异系数，coefficient of variation
峰值，kurtosis
偏度系数,skewness

最频繁出现的值 Most frequent values

直方图/柱状图  Histogram
相关性，Spearman
突出强相关的变量，Correlations highlighting of highly correlated variables
Spearman, Pearson 和Kendall模型
缺失值矩阵 Missing values matrix
计数，count
热图 heatmap 

缺失值的树状图 dendrogram of missing values

EDA_2快速性分析

原文：https://www.cnblogs.com/PythonSQL/p/14648238.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

EDA_2快速性分析

EDA_2快速性分析

一 pandas-profiling模块

1 方法说明

2 方法格式

3 报告模块

数据整体概览：Overview

变量探索：Variables

相关性计算：Correlations

缺失值情况：Missing values

数据样本展示：Sample

4 关键字解释