ODS——操作性数据
DW——数据仓库
DM——数据集市
数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境.
数仓的数据来源一般有:日志采集系统、业务系统数据库、爬虫系统等。通过对数据仓库中的数据进行分析,可以帮助企业改进业务流程、控制成本、提高产品质量等。
举例:
对于一个电商App,数据显示对于进入支付页面的用户,只有30%进行了支付,这是一个反常的数据。这个时候产品经理进行分析,发现支付按钮的位置不好点击,而且支付后接口返回比较慢。通过解决了这两个问题,支付比例提升到了80%。这就是数据仓库可以对企业的价值。
比较流行的数据库有:MySQL、Oracle、SQLServer
比较流行的数据仓库有:Hive、MaxCompute
(1)数据仓库和数据库的对比:
ODS层是这样一种数据存储系统,它将来自不同数据源的数据(各种操作型数据库、外部数据源等)通过ETL过程汇聚整合成面向主题的、集成的、企业全局的、一致的数据集合(主要是最新的或者最近的细节数据以及可能需要的汇总数据)。
从数据粒度上来说ODS层的数据粒度是最细的。ODS层的表通常包括两类,一个用于存储当前需要加载的数据,一个用于存储处理完后的历史数据。历史数据一般保存3-6个月后需要清除,以节省空间。但不同的项目要区别对待,如果源系统的数据量不大,可以保留更长的时间,甚至全量保存。
DW层,即数据仓库层,是对原系统数据进行了清洗后的数据,这一层的数据一般是遵循数据库第三范式的,其数据粒度通常和ODS的粒度相同。在DW层会保存系统中所有的历史数据,例如保存10年的数据。
DW层是直接提供查询服务的,所以他有以下的特征:
进入DW的数据应该是唯一的具有权威性的数据
数据只允许增加,不允许删除和修改
面向主题,DW中的数据按照一定的主题进行组织,每个主题对应一个宏观的分析领域
DM层即数据集市层,是以某个业务应用为出发点而建设的局部DW,通常是星形或雪花结构的数据。DM只关心自己需要的数据,它需要结构清晰、针对性强。
从数据粒度来说,这层的数据是轻度汇总级的数据,已经不存在明细数据了。
从时间上看,用户通常只需要分析近几年(如近3年的数据)的即可。
原文:https://www.cnblogs.com/caiyongjiesmile/p/14102455.html