首页 > 其他 > 详细

大数据技术原理与应用:【第二讲】大数据处理架构Hadoop

时间:2019-06-08 18:07:10      阅读:151      评论:0      收藏:0      [点我收藏+]

2.1 Hadoop概论

创始人:Doug Cutting

 

1.简介:

 

开源免费;

操作简单,极大降低使用的复杂性;

Hadoop是Java开发的;

在Hadoop上开发应用支持多种编程语言、不限于Java;

 

Hadoop两大核心:HDFS+MapReduce

HDFS:海量数据存储

MapReduce:海量数据的处理

 

2.起源:

原本是文本搜索库,模仿谷歌的搜索引擎;

融入了谷歌相关技术:分布式文件系统GFS;分布式并行编程框架MapReduce;

 

3.成名史:数据排序 的傲人成绩

 

4.特性:

1.高可靠性

2.高效性

3高可扩展性

4.高容错性

5.低成本

6.运行在Linux平台上

7.支持多种编程语言

 

5.应用现状:

例如:Facebook

技术分享图片

 

 

 

2.2 Hadoop项目结构

 HDFS:分布式文件存储

技术分享图片

MapReduce:数据处理,基于磁盘

Spark(性能比MapReduce高一个数量级):数据处理,基于内存

Hive:数据仓库;做决策分析;支持SQL语句(把SQL语句转成MapReduce作业,再去执行);

Pig:流数据处理,轻量级数据;提供类似SQL的查询语句Pig Latin;

Oozie:作业流调度系统

Zookeeper:分布式协调服务;分布式锁;集群管理;

HBase:列族数据库,随机读写

Flume:日志收集

Sqoop:数据导入导出,关系型数据库到HDFS、HBase、Hive互导

Ambari:快速部署工具

 

2.3 Hadoop安装与使用

技术分享图片

1.Linux选择:

选择Linux版本:Ubuntu

内存选择:看电脑。内存大于4G,选择64位

2.系统安装 虚拟机还是双系统:

看电脑配置

电脑比较新,装虚拟机

3.关于Linux基础知识

1.Shell:命令解析器

2.sudo命令:权限管理机制,管理员可以授权普通用户去执行一些需要root权限执行的操作

3.输入密码:看不见自己输入的密码

4.输入法中英文切换:使用“shift”键

5.Ubuntu终端赋值黏贴快捷键:ctrl+shift+V

4.安装方式:

单机模式,伪分布式模式,分布式模式

技术分享图片

 

5.创建虚拟机:

1.材料与工具:虚拟机软件与系统映像文件

 2.确认系统版本:

技术分享图片

 

2.4 Hadoop集群的部署与使用

考虑HDFS和MapReduce

 

(后补)

 

慕课链接:https://www.icourse163.org/learn/XMU-1002335004?tid=1003965001#/learn/content

大数据技术原理与应用:【第二讲】大数据处理架构Hadoop

原文:https://www.cnblogs.com/musecho/p/10991177.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!