hive的学习入门（飞进数据仓库的小蜜蜂）

时间：2014-07-29 17:22:12 阅读：350 评论：0 收藏：0 [点我收藏+]

前言

hive是构建在Hadoop上的数据仓库平台，其设计目标是:使Hadoop上的数据操作与传统的SQL结合，让熟悉sql的开发人员能够轻松的像Hadoop平台迁移。

Hive是Facebook的信息平台的重要组成部分，Facebook在2008年将其共献给Apache，现在Hive是Hadoop家族中一款数据仓库产品。

Hive最大的特点是：提供了类SQL的语法，封装了底层的MapReduce过程，让有SQL基础的业务人员，也可以也利用Hadoop进行大数据的操作。就是这一个点，解

决了原数据分析人员对于大数据分析的瓶颈。让我们把Hive的环境构建起来，帮助非开发人员也能更好地了解大数据。

Hive介绍
HIve的组成
Hive学习路线图
我的使用经历
Hive的使用案例

1. Hive介绍

Hive起源于Facebook，它使得针对Hadoop进行SQL查询成为可能，从而非程序员也可以方便地使用。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务运行。

Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

2.hive的组成

Hive包含shell环境、元数据库、解析器和数据仓库等组件，它的体系结构如下：

bubuko.com,布布扣

hive包括如下相关组件：

用户接口：包括 CLI (hive shell) ，thrift客户端、web管理
Thrift服务器：当hive以服务器模式运行时，可以作为Thrift服务器，供客户端连接。
元数据库：通常存在关系数据库中如mysql、derby中。
解析器：包括解释器、编译器、优化器、执行器通过这一些列的处理对hiveql查询语句进行词法分析、语法分析、编译优化以及查询计划的生成。查询计划由MapReduce调用。
Hadoop：数据仓库和查询计划存储在hdfs上，计算过程由mapreduce执行。但是（包含*的查询，比如说select * from table 不会生成MapReduce任务）。