对csv文件输出数据集的基本信息,如最大值、最小值、平均值等。
1.读取csv文件,并显示
import numpy as np import pandas as pd #读取csv文件,并显示csv文件 dataset=pd.read_csv(‘catering_sale.csv‘) dataset
2,平均值
#平均值 data=dataset.mean() data
3,最大值
#最大值 data_max=dataset.max() data_max
4,最小值
#最小值 data_min=dataset.min() data_min
5,方差
#方差 data_var=dataset.var() data_var
6,标准差
#标准差 data_std=dataset.std() data_std
7,中值
#中值 data_median=dataset.median() data_median
8,求和
#求和 data_sum=dataset.sum() data_sum
9,累积和
#累积和 data_cumsum=dataset.cumsum() data_cumsum
10,缺失值判断及统计
#判断是否有缺失 np.all(pd.notnull(dataset))#False,表示有缺失 #查看所有列是否有缺失 pd.isnull(dataset).any()#True表示有缺失,False表示没有缺失 #统计缺失的变量 pd.notnull(dataset)#False表示缺失 #统计缺失的样本个数 dataset.info() missing_value=dataset[‘销量‘].shape[0]-dataset[‘销量‘].count() missing_value
11,通过箱式图判断异常点
%matplotlib notebook import matplotlib.pyplot as plt import pandas as pd import numpy as np #在图中显示中文 plt.rcParams[‘font.sans-serif‘] = [u‘SimHei‘] plt.rcParams[‘axes.unicode_minus‘] = False #绘制箱式图 fig,axes = plt.subplots() dataset.boxplot(column=‘销量‘,by=[‘日期‘,‘销量‘],ax=axes) # column参数表示要绘制成箱形图的数据,可以是一列或多列 # by参数表示分组依据 axes.set_ylabel(‘销量‘) fig.savefig(‘p3.png‘) # 将绘制的图形保存为p3.png
plt.rcParams[‘font.sans-serif‘] = [u‘SimHei‘] plt.rcParams[‘axes.unicode_minus‘] = False #绘制单个箱式图 fig,axes = plt.subplots() dataset.boxplot(column=‘销量‘,ax=axes) # column参数表示要绘制成箱形图的数据,可以是一列或多列 # by参数表示分组依据 axes.set_ylabel(‘销量‘) fig.savefig(‘p4.png‘) # 将绘制的图形保存为p4.png
原文:https://www.cnblogs.com/LJLHDH3/p/14524365.html