在数据分析中,Python的主要探索函数
|
方法名
|
函数功能
|
所属库
|
|---|---|---|
| corr() | 计算样本数据的Spearman(Pearson)相关系数矩阵 | pandas |
| cov() | 计算样本数据的协方差矩阵 | pandas |
| describe() | 给出样本的基本描述(基本统计量入均值,标准差等) | pandas |
| kurt() | 样本值的峰度(四阶矩) | pandas |
| mean() | 计算数据样本的算数平均数 | pandas |
| skew() | 样本值的偏离(三阶矩) | pandas |
| std() | 计算样本数据的标准差 | pandas |
| sum() | 计算数据样本的总和(按列计算) | pandas |
| var() | 计算样本数据的方差 | pandas |
拓展统计特征函数
|
方法名
|
函数功能
|
所属库
|
|---|---|---|
| cummax() | 依次给出前1,2,3,..,个数的最大值. | pandas |
| cummin() | 依次给出前1,2,3,...,个数的最小值 | pandas |
| cumprod() | 依次给出1,2,3,...,n个数的积 | pandas |
| cumsum() | 依次给出前1,2,3...,n个数的和 | pandas |
|
方法名
|
函数功能
|
所属库
|
|---|---|---|
| rolling_sum() | 计算数据样本的总和(按列计算) | pandas |
| rolling_mean() | 数据样本的算术平均数 | pandas |
| rolling_var() | 计算样本的方差 | pandas |
| rolling_std() | 计算样本的标准差 | pandas |
| rolling_corr() | 计算样本的Spearman(Pearson) | pandas |
| rolling_cov() | 计算数据样本的协方差矩阵 | pandas |
| rolling_skew() | 样本的偏度(三阶矩) | pandas |
| rolling_kurt() | 样本值的峰度(四阶矩) | pandas |
统计作图函数
|
作图函数名
|
作图函数功能
|
所属工具箱
|
|---|---|---|
| boxplot() | 绘制样本数据的箱型图 | Pandas |
| hist() | 绘制二维条形直方图,可显示数据的分配情况 | Matplotlib/Pandas |
| pie() | 绘制饼型图 | Matplotlib/Pandas |
| plot() | 绘制线性二维图,折线图 | Matplotlib/Pandas |
| plot(logy=True) | 绘制y轴的对数图形 | Pandas |
| plot(yerr=error) | 绘制误差条形图 | Pandas |
import matplotlib.pyplot as plt import numpy as np x = np.random.randn(1000) # 1000个服从正太分布的随机数 plt.hist(x, 10) # 分成10组进行绘制直方图 plt.show()
import matplotlib.pyplot as plt import numpy as np import pandas as pd import random x = np.random.randn(1000) # 1000个服从正太分布 D = pd.DataFrame([x, x+1]).T # 构造两列的DataFrame D.plot(kind="box") # 调用Series内置的作图方法画图,用kind参数指定箱型图box plt.show()
import numpy as np import pandas as pd import matplotlib.pyplot as plt plt.rcParams[‘font.sans-serif‘] = [‘SimHei‘] # 用来正常显示中文标签 plt.rcParams[‘axes.unicode_minus‘] = False # 用来正常显示负号 x = pd.Series(np.exp(np.arange(20))) # 原始数据 x.plot(label= u"原始数据图", legend=True) plt.show() x.plot(logy=True, label=u"对数数据图", legend=True) plt.show()
import matplotlib.pyplot as plt import numpy as np import pandas as pd plt.rcParams["font.sans-serif"] = ["SimHei"] # 用来正常显示中文标签 plt.rcParams["axes.unicode_minus"] = False # 用来正常显示负号 error = np.random.randn(10) # 定义误差列 y = pd.Series(np.sin(np.arange(10))) # 均值数据列 y.plot(yerr=error) # 绘制误差图 plt.show()
原文:https://www.cnblogs.com/ljc-0923/p/11746863.html