首页 > 其他 > 详细

数据集的基本信息及统计、数据异常分析

时间:2021-03-12 16:58:31      阅读:47      评论:0      收藏:0      [点我收藏+]

对csv文件输出数据集的基本信息,如最大值、最小值、平均值等。

1.读取csv文件,并显示

import numpy as np
import pandas as pd
#读取csv文件,并显示csv文件
dataset=pd.read_csv(catering_sale.csv)
dataset

技术分享图片

 

 2,平均值

#平均值
data=dataset.mean()
data

技术分享图片

 

 3,最大值

#最大值
data_max=dataset.max()
data_max

技术分享图片

 

 4,最小值

#最小值
data_min=dataset.min()
data_min

技术分享图片

 

 5,方差

#方差
data_var=dataset.var()
data_var

技术分享图片

 

 6,标准差

#标准差
data_std=dataset.std()
data_std

技术分享图片

 

 7,中值

#中值
data_median=dataset.median()
data_median

技术分享图片

 

 8,求和

#求和
data_sum=dataset.sum()
data_sum

技术分享图片

 

 9,累积和

#累积和
data_cumsum=dataset.cumsum()
data_cumsum

技术分享图片

 

 10,缺失值判断及统计

#判断是否有缺失
np.all(pd.notnull(dataset))#False,表示有缺失

#查看所有列是否有缺失
pd.isnull(dataset).any()#True表示有缺失,False表示没有缺失

#统计缺失的变量
pd.notnull(dataset)#False表示缺失

#统计缺失的样本个数
dataset.info()
missing_value=dataset[销量].shape[0]-dataset[销量].count()
missing_value

技术分享图片

 

 技术分享图片

 

 技术分享图片

 

 技术分享图片

 

 11,通过箱式图判断异常点

%matplotlib notebook
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

#在图中显示中文
plt.rcParams[font.sans-serif] = [uSimHei]
plt.rcParams[axes.unicode_minus] = False

#绘制箱式图
fig,axes = plt.subplots()
dataset.boxplot(column=销量,by=[日期,销量],ax=axes)
# column参数表示要绘制成箱形图的数据,可以是一列或多列
# by参数表示分组依据
 
axes.set_ylabel(销量)
fig.savefig(p3.png)   # 将绘制的图形保存为p3.png

技术分享图片

 

 

plt.rcParams[font.sans-serif] = [uSimHei]
plt.rcParams[axes.unicode_minus] = False

#绘制单个箱式图
fig,axes = plt.subplots()
dataset.boxplot(column=销量,ax=axes)
# column参数表示要绘制成箱形图的数据,可以是一列或多列
# by参数表示分组依据
 
axes.set_ylabel(销量)
fig.savefig(p4.png)   # 将绘制的图形保存为p4.png

技术分享图片

 

数据集的基本信息及统计、数据异常分析

原文:https://www.cnblogs.com/LJLHDH3/p/14524365.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!