首页 > 其他 > 详细

Spark环境搭建(四)-----------数据仓库Hive环境搭建

时间:2017-08-06 13:52:35      阅读:241      评论:0      收藏:0      [点我收藏+]

Hive产生背景

1)MapReduce的编程不便,需通过Java语言等编写程序

2) HDFS上的文缺失Schema(在数据库中的表名列名等),方便开发者通过SQL的方式处理结构化的数据,而不需要Java等编写程序

Hive是什么

1)facebook开源,最初为解决海量的结构化日志数据统计问题

2)构建中Hadoop上的数据仓库

3)Hive定义了一种SQL查询语言:HQL(类似SQl但又不完全相同)

4)通常进行离线处理(采用MapReduce)

5)多种不同的底层执行引擎(Hive on MapReduce/Tez/Spark)

6)支持多种不同的压缩格式,存储格式以及自定义函数

  压缩格式:GZIP,LZO,Snappy,BZIP2..

  存储格式:TextFile,SequenceFile,RCFile,ORC,PARquet

  UDF:自定义函数

为什么使用Hive

1) 简单,容易上手(提供了类似SQL查询语言HQL)

2) 为超大数据集设计的计算、存储扩展能力(MR计算,HDFS存储)

3) 统一的元数据管理(可与Presto/Impala/SparkSQL等共享数据)

Hive环境搭建

1)使用版本:hive-1.1.0-cdh5.7.0.tar.gz

2) 下载:

  wget http://archive.cloudera.com/cdh5/cdh/5/

3)解压:tar -zxvf hive-1.1.0-cdh5.7.0.tar.gz -C ~/app/

 

Spark环境搭建(四)-----------数据仓库Hive环境搭建

原文:http://www.cnblogs.com/ruoniao/p/7294454.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!