小编最近发现一个好用的工具, pandas-profiling,对于做数据分析的朋友们来说,这可是个好工具,它可以以网页的形式展现给你数据总体概况
在pandas中 df.describe() 是比较基础的探索性数据分析函数,而pandas_profiling则是在DataFrame的基础上扩展,用于快速数据分析。
对于DataFrame中的每一列,和类别有关的指标都会以交互式的网页展现出来
首先,下载 pandas-profiling
pip install pandas-profiling
conda install -c anaconda pandas-profiling
也可以从github中下载
pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip
接着,导入及应用
分析器(profiling)接收的数据类型为DataFrame
import pandas as pd import pandas_profiling data = pd.read_excel("") profile = pandas_profiling.ProfileReport(data,title = "",pool_size = 3,minify_html = True)
profile.to_file(output_file="") 输出为html文件
profile.to_html() 输出为html源码
分析器的设置有:titile,线程池的个数(cpu),html是否要最小化,还有其他设置,可以参考:官方文档
生成报告文件之后,打开报告文件,你就可以看到关于这四个部分的内容
综述:包括数据量,数据类型,很贴心的还有warning,提醒你变量中零值占比和变量相关性
变量:将每个变量的去重后计数,缺失个数,缺失占比,均值,最大最小值,零值占比,右边还有个柱状图显示数据分布,点击右下角的展示细节,会有更加详细的分位数统计和描述性统计,极值前5展示,柱状图,
有意思的是,强相关的变量,会只展示其中一个变量。你会看到那一栏会灰色,它告诉你,这个变量和XX变量强相关
相关性:是以一个热图来展示,发现这里不太兼容中文
缺失值:是以两个柱状图来展现
样本:展现出前后10行的的样本
小编觉得pandas-profiling还挺好用的,源码还是python写的,简单易懂,想修改点功能还能自己改源码。快去试试吧,看过点个赞或推荐哦。
快速数据分析工具:pandas-profiling,超好用!
原文:https://www.cnblogs.com/4991tcl/p/11151366.html