首页 > 编程语言 > 详细

Python学习笔记三:数据特征分析

时间:2020-02-21 16:48:11      阅读:85      评论:0      收藏:0      [点我收藏+]

完成数据清理后,下面通过图表展开对数据的分析。

1.前期初判(分布分析):
1)判断分组区间:

# a.散点图:
plt.scatter(data[字段1],data[字段2], s = data[字段3], # 显示大小 c = data[字段4], # 显示颜色 alpha = 0.4, cmap = Reds)
# b.直方图:
data[字段].hist(bins
=10)

2)求出目标字段下频率分布的统计量:频数,频率,累计频率:

pandas.cut([字段],区间数)
pandas.cut.value_count:区间计数
df.rename(columns ={columnname:新列名}, inplace = True) :字段重命名

3)可视化:

# a. bar图
df.style.bar(subset=[频率,累计频率], color=green,width=100)
# b. 直方图: df[频率].plot(kind = bar,width = 0.8,figsize = (12,2), rot = 0, color = k, grid = True, alpha = 0.5) plt.title(参考总价分布频率直方图)
# c. 饼图: plt.pie(df[频数],labels = df.index, autopct=%.2f%%, shadow = True), plt.axis(equal)

2.对比分析
1)结构化分析:折现图、多系列柱状图、柱状图堆叠图+差值折线图
    在分组基础上,各组总量指标与总体的总量指标对比,计算出各组数量在总量中所占比重,反映总体的内部结构。

  举例:A产品、B产品的销售情况、消费者类型结构。


2)比例分析:面积图
    在分组的基础上,将总体不同部分的指标数值进行对比,其相对指标一般称为“比例相对数”。
    比例相对数 = 总体中某一部分数值 / 总体中另一部分数值。

  举例: 线上销售Vs线下销售


3)空间比较分析(横向对比分析):柱状图
    同类现象在同一时间不同空间的指标数值进行对比,反应同类现象在不同空间上的差异程度和现象发展不平衡的状况
    空间比较相对数 = 甲空间某一现象的数值 / 乙空间同类现象的数值
    举例:微信/支付宝等指支付方式在不同城市的份额


4)动态对比分析(纵向对比分析)
    同一现象在不同时间上的指标数值进行对比,反应现象的数量随着时间推移而发展变动的程度及趋势
    最基本方法,计算动态相对数 → 发展速度
    动态相对数 = 某一现象的报告期数值 / 同一现象的基期数值
    基期:用来比较的基础时期
    报告期:所要研究的时期,又称计算期

 

Python学习笔记三:数据特征分析

原文:https://www.cnblogs.com/max-pro/p/12341887.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!