Hive概述

时间：2021-04-30 10:05:03 阅读：21 评论：0 收藏：0 [点我收藏+]

前边已经搭建好了hive，也通过cli登录上了hive，那我们来简单说一下hive

Hive概念

Hive是基于Hadoop的一个数据仓库工具

可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。
其本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据的存储支持，也可以说hive就是一个MapReduce的客户端

Hive与数据库的区别

Hive的优缺点

优点
- 操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）。避免了去写MapReduce，减少开发人员的学习成本。
- Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。
缺点
- Hive将SQL转换为MapReduce任务，Hive 的查询延迟很严重
- Hive 不支持事务

Hive原理

用户接口：Client
- CLI（hive shell）
- JDBC/ODBC(java访问hive)
- WEBUI（浏览器访问hive）
元数据：Metastore
- 元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；
- 默认存储在自带的derby数据库中，推荐使用MySQL存储Metastore
Hadoop集群
- 使用HDFS进行存储，使用MapReduce进行计算。
Driver：驱动器
- 解析器（SQL Parser）：将SQL字符串转换成抽象语法树AST，对AST进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误
- 编译器（Physical Plan）：将AST编译生成逻辑执行计划
- 优化器（Query Optimizer）：对逻辑执行计划进行优化
- 执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划。

对于Hive来说默认就是mapreduce任务

Hive的交互方式

使用Hive前需要的准备工作

启动hadoop集群：因为hql语句会被编译成MR任务提交到集群运行；hive表数据一般存储在HDFS上

mysql服务：因为对hive操作过程中，需要访问mysql中存储元数据的库及表

Hive交互shell
- 在任意路径运行hive

Hive JDBC服务，beeline方式

启动hiveserver2服务，前台启动与后台启动方式二选一

hive --service hiveserver2      #前台启动hiveserver2，进行beeline登录时需要克隆一个新的窗口
或
nohup hive --service hiveserver2 &    #后台启动hiveserver2

beeline连接hiveserver2服务

beeline --color=true    #启动beeline
beeline> !connect jdbc:hive2://hadoop02:10000    #使用JDBC登录Hive

Hive的命令

hive -e hql语句，使用 –e 参数来直接执行hql语句

hive -e "show databases"

hive -f sql文件，使用 –f参数执行包含hql语句的文件

cd /bigdata/install/hive-3.1.4/
vi hive.sql
#在hive.sql中输入以下HQL语句，保存退出
create database if not exists myhive;
#执行脚本
hive -f /bigdata/install/hive-3.1.4/hive.sql

Hive的数据类型

基本数据类型

类型名称	描述	举例
boolean	true/false	true
tinyint	1字节的有符号整数	1
smallint	2字节的有符号整数	1
int	4字节的有符号整数	1
bigint	8字节的有符号整数	1
float	4字节单精度浮点数	1.0
double	8字节单精度浮点数	1.0
string	字符串(不设长度)	“abc”
varchar	字符串（1-65355长度，超长截断）	“abc”
timestamp	时间戳	1563157873
date	日期	20190715

复合数据类型

类型名称	描述	举例
array	一组有序的字段，字段类型必须相同 array(元素1，元素2)	Array（1,2,3）
map	一组无序的键值对 map(k1,v1,k2,v2)	Map(‘a’,1,‘b‘,2)
struct	一组命名的字段，字段类型可以不同 struct(元素1，元素2)	Struct(‘a‘,1,2,0)

array类型的字段的元素访问方式
- 通过下标获取元素，下标从0开始，eg:如获取第一个元素 array[0]
map类型字段的元素访问方式
- 通过键获取值，eg: 如获取a这个key对应的value map[‘a‘]
struct类型字段的元素获取方式
- 定义一个字段c的类型为struct{a int, b string}
- 获取a和b的值，使用c.a 和c.b 获取其中的元素值

Hive概述

原文：https://www.cnblogs.com/tenic/p/14720085.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)