首页 > 其他 > 详细

大数据技术原理与应用：【第二讲】大数据处理架构Hadoop

时间：2019-06-08 18:07:10 阅读：155 评论：0 收藏：0 [点我收藏+]

2.1 Hadoop概论

创始人：Doug Cutting

1.简介：

开源免费;

操作简单，极大降低使用的复杂性;

Hadoop是Java开发的;

在Hadoop上开发应用支持多种编程语言、不限于Java；

Hadoop两大核心：HDFS+MapReduce

HDFS：海量数据存储

MapReduce：海量数据的处理

2.起源：

原本是文本搜索库，模仿谷歌的搜索引擎；

融入了谷歌相关技术：分布式文件系统GFS；分布式并行编程框架MapReduce；

3.成名史：数据排序的傲人成绩

4.特性：

1.高可靠性

2.高效性

3高可扩展性

4.高容错性

5.低成本

6.运行在Linux平台上

7.支持多种编程语言

5.应用现状：

例如：Facebook

技术分享图片

2.2 Hadoop项目结构

HDFS：分布式文件存储

技术分享图片

MapReduce：数据处理，基于磁盘

Spark（性能比MapReduce高一个数量级）：数据处理，基于内存

Hive：数据仓库；做决策分析；支持SQL语句（把SQL语句转成MapReduce作业，再去执行）；

Pig：流数据处理，轻量级数据；提供类似SQL的查询语句Pig Latin；

Oozie:作业流调度系统

Zookeeper:分布式协调服务；分布式锁；集群管理；

HBase：列族数据库，随机读写

Flume：日志收集

Sqoop：数据导入导出，关系型数据库到HDFS、HBase、Hive互导

Ambari：快速部署工具

2.3 Hadoop安装与使用

技术分享图片

1.Linux选择：

选择Linux版本：Ubuntu

内存选择：看电脑。内存大于4G，选择64位

2.系统安装虚拟机还是双系统：

看电脑配置

电脑比较新，装虚拟机

3.关于Linux基础知识

1.Shell：命令解析器

2.sudo命令：权限管理机制，管理员可以授权普通用户去执行一些需要root权限执行的操作

3.输入密码：看不见自己输入的密码

4.输入法中英文切换：使用“shift”键

5.Ubuntu终端赋值黏贴快捷键：ctrl+shift+V

4.安装方式：

单机模式，伪分布式模式，分布式模式

技术分享图片

5.创建虚拟机：

1.材料与工具：虚拟机软件与系统映像文件

2.确认系统版本：

技术分享图片

2.4 Hadoop集群的部署与使用

考虑HDFS和MapReduce

（后补）

慕课链接：https://www.icourse163.org/learn/XMU-1002335004?tid=1003965001#/learn/content

大数据技术原理与应用：【第二讲】大数据处理架构Hadoop

原文：https://www.cnblogs.com/musecho/p/10991177.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

最新文章

更多>

教程昨日排行

更多>

友情链接

汇智网 PHP教程插件网

关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com

© 2014 bubuko.com 版权所有

打开技术之扣，分享程序人生！