这篇文章主要介绍Hive的概念。
简介:
Hive中文名叫数据仓库管理系统,之前我们操作MapReduce必须通过编写代码或者通过特殊命令来实现,有了Hive我们通过常用的SQL语句就能操作MapReduce集群了。是不是感觉很方便。 这也是方便不懂MapReduce原理,懂SQL语句的人用的。
有好几个公司都推出了自己的Hive,其中比较出名的是Apache Hive,CDH Hive,HDP Hive和MapR Hive,大家刚开始学习大部分都用的Apache Hive,但是公司中却很少使用它,因为它的版本太杂乱,里面的BUG也很多,没法快速投入生产,所以大部分都采用第三方Hive,也就是CDH或MapR Hive,这些Hive由专门组织开发,调理清晰,BUG较少,当然人家也是靠这个服务赚钱啦。博主因为也是学习阶段,所以先介绍Apache Hive了,后续会介绍和搭建其它版本的。
结构:
Setp1: 用户通过Shell命令,WebUI或JDBC调用Driver
Setp2: Driver会先去数据库查询有没有这个表的信息,没有的话直接返回,有的话进行第三步
Setp3:将SQL转行为MapReduce执行命令
Setp4:分发到MapReduce去执行
原文:https://www.cnblogs.com/shun7man/p/11820830.html