数据分析——狐逻&泰罗学院学员画
一、数据源
数据来源于集团数据库,学员大表
该数据集中共有26w+学员报名的数据,字段信息29个,可大致分为
1.订单相关字段
子订单id
子订单编号
学员id
姓名
报名时间
服务期截止时间
支付金额
支付方式
订单状态
2.课程相关字段:
一级项目
二级项目
班型
3.班主任相关字段:
学院
家族
花名
班级名称
4.出勤信息相关字段:
连续缺勤直播次数
应出勤课程数
出勤率
累计学习时长
持续休眠天数
5.学员信息相关字段:
是否有考试计划
准考证填写情况
报考省份
报考城市
是否绑定官微
标签
加微信状态
二、提出需求
对这些数据做描述性统计分析也可以获取一些有价值的信息,首先提出问题:
1. 学员地理位置分布如何?
2. 学生班主任分布如何?
3.课程分布情况如何?
三、数据清洗
1. 选择子集
由于数据所含字段较多,根据分析所需对其他无关数据进行隐藏,选择相关数据另存到新的工作表中,方便进行下一步操作。
2. 列名重命名
此数据中列名为英文,将其改为中文。
3. 删除重复值
对学员名称进行操作删除重复值,发现同一学员id但上线日期不同,应为有效数据,予以保留。
4. 处理缺失值
对数据区域进行空值的定位查找,发现无缺失值,每一列计数项均一致。
5. 一致性处理、排序、处理异常值
本数据较为规范,无需进行额外操作,可直接进行下一步分析。
四、构建模型
1. 学员分布城市主要包括为那些地区,各比例如何?
2. 哪些课程较受欢迎,学生数较多?
3. 哪些班主任较受欢迎,学生数较多?
4. 课程持续时长不同是否会影响学生完成情况?
五、数据分析可视化
1.利用数据透视表,对地理位置进行分析,如图1所示,地理位置分布情况如下:
图1 各地理位置分布条形图
进一步对省份进行分析,结果如图1所示,广东地区学员人数最多。
2. 以课程分布为依据,选择自考的学生数较多,其次教师资格证的学生较多。
3. 以班主任分布为依据,选择教师资格证的张涛老师的学生数较多,但是自考穆登容老师在运营中获得的流水数量最多。
六、结论
通过以上分析,可以得出一些比较有意思的结论:
1.自考学生带来了大量的流水,教师资格证带来了大量的学员人数。
2.广东地区学员接收线上成人教育的接收程度较其他地区较显著。
原文:https://www.cnblogs.com/cy344762694/p/14088305.html