首页 > 其他 > 详细

大数据学习笔记(一)

时间:2019-06-19 11:19:33      阅读:104      评论:0      收藏:0      [点我收藏+]

一、大数据的基本处理步骤
1)数据获取
flume
数据来源:专业数据机构,国家统计局,企业内部数据,互联网数据
2)数据清洗
mapreduce
清除不需要,错误,无效的数据
3)数据存储
hdfs
性能,可用,可靠,成本等方面考量
4)数据处理
hive
按业务需求处理
5)数据分享
sqoop,kettle
可视化展示,最大化利用数据价值

二、数据仓库技术 ETL

E: extract 抽取

T: tansform 交互转换

L: load 加载

 

三、 商业智能 BI(Business Intelligence)

1)商业智能

2)将企业现有数据有效整合,快速准确提供报表提出决策依据,帮助作出业务决策

3)需求分析和功能实现依赖的技术组件

技术分享图片

 

四、Hadoop

1)apache旗下开源软件平台,广义是指Hadoop生态圈

2)利用分布式集群,根据具体业务,对海量数据进行分布式处理

3)核心组件包括COMMON,HDFS,YARN,MAPREDUCE

组件名称以及主要功能
HDFS:分布式文件系统
MAPREDUCE:分布式运算程序开发框架
HIVE:基于文件系统和运算框架的SQL数据仓库工具
ZOOKEEPER:分布式协调服务基础组件
HBASE:分布式数据库OLTP
Mahout:基于分布式运算框架的机器学习算法库
Saoop:数据的导入导出工具
Flume:日志数据采集框架

大数据学习笔记(一)

原文:https://www.cnblogs.com/cs99lzzs/p/11049916.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!