首页 > 其他 > 详细

Hive分布式的数据仓库

时间:2016-01-10 19:58:25      阅读:118      评论:0      收藏:0      [点我收藏+]

1.hive介绍

  hive是一个数据仓库的解决方案,它的数据存储依赖于HDFS,数据结算依赖于MR,也就是说,hive就是一个在数据仓库的服务,它只需要安装到一台普通的PC上即可,仅仅对         外提供SQL服务,对客户端的SQL最终转换成对HDFS的操作和MR的操作。

2.hive就是服务,不需要分布式安装

  hive的表,分区,桶本质就是在HDFS上面建立一些目录,同时借助RDBMS存储自己的元数据(用户的DDL,DML作为元数据,存储在RDMS里面,Hive引擎就会解析这些数据        生成MR的job运行,同时将HIve里面的表存储转换成hdfs的目录)。

3.hive的DDL操作

  建立表

    1.在rdms里面存储表的列,名称

    2.在hdfs里面以表的名称,建立了一个目录

  插入数据、查询数据 

    1 将hql经过解析,形成执行计划,最后生成mr的job运行,而hql里面的表转换成hdfs里面的目录作为mr的输入和输出

  聚合函数、窗口函数以及OLAP的CUBE等聚合函数

    1 avg、sum、count、rank、cube等度量值的聚合方式。

 

Hive分布式的数据仓库

原文:http://www.cnblogs.com/gstsyyb/p/5118977.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!