首页 > 其他 > 详细

Hive学习之路（一）Hive初识

时间：2019-08-19 01:57:45 阅读：113 评论：0 收藏：0 [点我收藏+]

Hive简介

什么是Hive

Hive由Facebook实现并开源
是基于Hadoop的一个数据仓库工具
可以将结构化的数据映射为一张数据库表
提供HQL（Hive SQL）查询功能
底层数据是存储在HDFS上
Hive的本质是将SQL语句转换为MapReduce任务运行
使不熟悉MapReduce的用户很方便地利用HQL处理和计算HDFS上的结构化数据，适用于离线的批量数据计算

为什么使用Hive

? 直接使用MapReduce所面临的问题：

人员学习成本太高
项目周期要求太短
MapReduce实现复杂查询逻辑开发难度太大

为什么要使用Hive：

更友好的接口：操作接口采用类SQL的语句，提供快速开发的能力
更低的学习成本：避免了写MapReduce，减少开发人员的学习成本
更好的扩展性：可自由扩展集群规模而无需重启服务，还支持用户自定义函数

Hive的特点

? 优点：

可扩展性、横向扩展：Hive可以自由的扩展集群的规模，一般情况下不需要重启服务。
- 横向扩展：通过分担压力的方式扩展集群的规模
- 纵向扩展：一台服务器cpu i7
延展性：
良好的容错性

缺点：
Hive不支持记录级别的增删改查
Hive的查询延迟很严重
Hive不支持事务

Hive和RDBMS的对比

对比项	Hive	RDBMS
查询语言	HQL	SQL
数据存储	HDFS	Raw Device or Local FS
执行器	MapReduce	Executor
数据插入	支持批量导入/单条插入	支持批量导入/单条插入
处理数据规模	大	小
执行延迟	高	低
分区	支持	支持
索引	0.8版本之后加入简单索引	支持复杂的索引
扩展性	高（好）	有限（查）
数据加载模式	读时模式（快）	写时模式（慢）
应用场景	海量数据查询	实时查询

总结：

? Hive具有SQL数据库的外表，但应用场景完全不同，Hive只适合用来做海量离线数据统计分析，也就是数据仓库。

Hive架构

技术分享图片

1. 用户接口：shell/CLI，jdbc/odbc.webui Command Line Interface

CLI,Shell终端命令行（Command Line Interface），采用交互形式使用hive命令与Hive进行交互，最常用（学习，调试，生产）

2.跨语言服务：thrift server 提供了一种能力，让用户可以使用多种不同的语言来操作Hive

3.底层的Driver：驱动器Driver，编辑器Compiler，优化器Optimizer，执行器Executor

4.元数据存储系统：RDBMS MySQL

元数据：通俗的讲，就是存储在Hive中的数据的描述信息。

Hive学习之路（一）Hive初识

原文：https://www.cnblogs.com/shine-rainbow/p/11374399.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

最新文章

更多>

教程昨日排行

更多>

友情链接

汇智网 PHP教程插件网

关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com

© 2014 bubuko.com 版权所有

打开技术之扣，分享程序人生！