首页 > 其他 > 详细

自己总结

时间:2020-05-31 11:45:20      阅读:42      评论:0      收藏:0      [点我收藏+]

数据字段说明

一共有85个字段,包含用户和广告等数据

 

ETL需求实现

切分为85个字段

数据过滤

指定schema生成DataFrame

持久化到HDFS

 

任务:用StructType的方式指定Schema信息并进行数据etl

 

报表

统计各省市数据量分布情况

以省市进行分组,组内进行数据量统计

 

 

用spark处理数据的时候,怎么保证数据一致性?

spark内部自己会实现数据一致性的

 

离线:生成数据的时候给每条一个唯一的标识,在计算的时候, 在结果数据里也存储该标识,这样的方式,在数据恢复的时候,可以根据标识判断数据是否计算完成,该方式是很耗费资源和时间

另一种方式,将结果删除,重新运行该离线任务即可

实时:首先需要手动维护offset,用事务机制、幂等方式、数据和offset绑定到一起的方式

 

任务:用SparkCore实现统计各省市数据量分布情况

 

地域分布

按照省市进行分组,组内聚合

其中有两个求比率的指标,在这里不做实现,在真正展示的时候拿到基础的聚合值去比较即可。

自己总结

原文:https://www.cnblogs.com/zqfdgzrc/p/12996729.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!