1)ODS层(原始数据层)
存储原始数据,直接加载原始日志、数据,数据保持原貌不做处理。
2)DWD层(明细层)
对ODS层数据进行清洗(去除空值、脏数据,超过极限范围的数据)
3)DWS层(服务数据层)
以DWD层为基础,进行轻度汇总。比如:用户当日、设备当日、商品当日。
4)ADS层(数据应用层)
Tez可以将多个有依赖的作业转换为一个作业,这样只需写一次HDFS,且中间节点较少,从而大大提升作业的计算性能。
自定义过。
用UDF函数解析公共字段;用UDTF函数解析事件字段。
在启动日志中统计不同设备id 出现次数。
用活跃用户表 left join 用户新增表,用户新增表中mid为空的即为用户新增。
留存用户=前一天新增 join 今天活跃
用户留存率=留存用户/前一天新增
按照设备id对日活表分组,登录次数为1,且是在一周前登录。
本周活跃left join本周新增 left join上周活跃,且本周新增id和上周活跃id都为null
按照设备id对日活表分组,且七天内没有登录过。
按照设备id对周活进行分组,统计次数等于3次。
1)查询出最近7天的活跃用户,并对用户活跃日期进行排名
2)计算用户活跃日期及排名之间的差值
3)对同用户及差值分组,统计差值个数
4)将差值相同个数大于等于3的数据取出,然后去重,即为连续3天及以上活跃的用户
大数据实战(四十三):电商数仓(三十六)之用户行为数据仓库(二十二)用户行为数仓业务总结
原文:https://www.cnblogs.com/qiu-hua/p/13543689.html