首页 > 其他 > 详细

hadoop大数据架构

时间:2020-07-27 17:25:28      阅读:58      评论:0      收藏:0      [点我收藏+]

数据架构包含:数据采集层,数据调度平台、数据展示层

技术分享图片

技术分享图片

 

 

数据采集

  • 自己业务数据(主要是各个业务线的数据,例如:用户、订单等),主要存放在关系型数据库中,例如Mysql等。
  • 埋点日志(涉及到用户对APP或者小程序等的访问、分享、浏览等基本的用户行为数据),这份数据主要是存放在HIVE上;
  • 第三方数据,例如:获取的第三方竞品数据、各种API获取、TD投放、爬虫等第三方数据。

埋点采集主要是离线数仓和实时采集,改进方案:NG -> Kafka -> StructuredStreaming/Flink,然后实时的需求直接走StructuredStreaming/Flink,获取实时的数据存到redis/ES等内存数据库中,可以做搜索推荐。离线的将数据存到HDFS中,第二天对昨天的日志进行合并(主要是合并小文件)

数据中台主要包含:数据治理、数据安全、数据质量

Hadoop的最核心的存储层叫做HDFS,全称是Hadoop文件存储系统,有了存储系统还要有分析系统maoreduce,mapreduce做分析太重,脸书开源了hive

Hadoop最开始设计是用来跑文件的,对于数据的批处理(batch data processing)能力较强,实时数据(streaming data processing) 使用spark 或flink

hadoop大数据架构

原文:https://www.cnblogs.com/Christbao/p/13385231.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!