hadoop大数据架构

时间：2020-07-27 17:25:28 阅读：63 评论：0 收藏：0 [点我收藏+]

数据架构包含:数据采集层，数据调度平台、数据展示层

技术分享图片

数据采集

自己业务数据（主要是各个业务线的数据，例如：用户、订单等），主要存放在关系型数据库中，例如Mysql等。
埋点日志（涉及到用户对APP或者小程序等的访问、分享、浏览等基本的用户行为数据），这份数据主要是存放在HIVE上；
第三方数据，例如：获取的第三方竞品数据、各种API获取、TD投放、爬虫等第三方数据。

埋点采集主要是离线数仓和实时采集，改进方案：NG -> Kafka -> StructuredStreaming/Flink，然后实时的需求直接走StructuredStreaming/Flink，获取实时的数据存到redis/ES等内存数据库中，可以做搜索推荐。离线的将数据存到HDFS中，第二天对昨天的日志进行合并（主要是合并小文件）

数据中台主要包含：数据治理、数据安全、数据质量

Hadoop的最核心的存储层叫做HDFS，全称是Hadoop文件存储系统，有了存储系统还要有分析系统maoreduce，mapreduce做分析太重，脸书开源了hive

Hadoop最开始设计是用来跑文件的，对于数据的批处理（batch data processing）能力较强，实时数据(streaming data processing) 使用spark 或flink

hadoop大数据架构

原文：https://www.cnblogs.com/Christbao/p/13385231.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)