在pandas中 df.describe() 是比较基础的探索性数据分析函数,而pandas_profiling则是在DataFrame的基础上扩展,用于快速数据分析。
#1 导入模块
import pandas_profiling
#2 读取数据集
df = pd.read_excel("kenseven.xlsx")
#3 生成报告
pandas_profiling.ProfileReport(df)
#4 另存为.html文件
profile = pandas_profiling.ProfileReport(df)
profile.to_file(‘保存路径.html‘)
"""说明:
问题:保存网页的时候有报错,提示没有对应字体
解决:不影响另存为.html文件
"""
pandas-profiling EDA报告包括:
这里为大家提供5种相关性系数。
pandas-profiling为我们提供了四种缺失值展现形式。
1概要:Essentials
类型 type
唯一值 unique values
缺失值 missing values
2分位数统计像 Quantile statistics like
最小值,minimum value
中位数, median
最大值, maximum
值域, range
四分位距 interquartile range
3描述性统计像
均值,mean
众数,mode
标准差,standard deviation
和,sum
绝对中位差,median absolute deviation
变异系数,coefficient of variation
峰值,kurtosis
偏度系数,skewness
最频繁出现的值 Most frequent values
直方图/柱状图 Histogram
相关性,Spearman
突出强相关的变量,Correlations highlighting of highly correlated variables
Spearman, Pearson 和Kendall模型
缺失值矩阵 Missing values matrix
计数,count
热图 heatmap
缺失值的树状图 dendrogram of missing values
原文:https://www.cnblogs.com/PythonSQL/p/14648238.html