Spark环境搭建（四）-----------数据仓库Hive环境搭建

时间：2017-08-06 13:52:35 阅读：241 评论：0 收藏：0 [点我收藏+]

Hive产生背景

1）MapReduce的编程不便，需通过Java语言等编写程序

2） HDFS上的文缺失Schema(在数据库中的表名列名等)，方便开发者通过SQL的方式处理结构化的数据，而不需要Java等编写程序

1）facebook开源，最初为解决海量的结构化日志数据统计问题

2）构建中Hadoop上的数据仓库

3）Hive定义了一种SQL查询语言：HQL(类似SQl但又不完全相同)

4）通常进行离线处理（采用MapReduce）

5）多种不同的底层执行引擎（Hive on MapReduce/Tez/Spark）

6）支持多种不同的压缩格式，存储格式以及自定义函数

　　压缩格式：GZIP,LZO,Snappy,BZIP2..

　　存储格式：TextFile,SequenceFile,RCFile,ORC，PARquet

　　UDF:自定义函数

1) 简单，容易上手（提供了类似SQL查询语言HQL）

2) 为超大数据集设计的计算、存储扩展能力（MR计算，HDFS存储）

3) 统一的元数据管理（可与Presto/Impala/SparkSQL等共享数据）

1）使用版本：hive-1.1.0-cdh5.7.0.tar.gz

2) 下载：

　　wget http://archive.cloudera.com/cdh5/cdh/5/

3）解压：tar -zxvf hive-1.1.0-cdh5.7.0.tar.gz -C ~/app/

原文：http://www.cnblogs.com/ruoniao/p/7294454.html

踩

(0)

评论一句话评论（0）

分享档案

更多>