首页 > 其他 > 详细

hive学习总结(4)—hive中所有join

时间:2014-11-22 02:26:28      阅读:282      评论:0      收藏:0      [点我收藏+]
1.? 内连接:inner join

?

--join优化:在进行join的时候,大表放在最后面

?

--但是使用 /*+streamtable(大表名称)*/ 来标记大表,那么大表放在什么位置都行了

?

select /*+streamtable(s)*/ s.ymd,d.dividend

?

from stocks s inner join dividends d on s.ymd=d.ymd and s.symbol=d.symbol

?

where s.symbol=’aapl’

?

2.? 外连接:left outer join,right outer join,full outer join

?

把外连接(outer join)where语句中的过滤条件,放在on语句是无效的。不过对于内连接有效。

?

3.? 笛卡尔积:join

?

join的时候不使用on,而使用where的。

?

--笛卡尔积join很缓慢,可以设置hive.mapred.mode=strict来阻止执行

?

hive.mapred.mode=strict

?

4. 左半开连接:left semi-joinhive不支持右半开连接)

?

左半开连接(left semi-join)会返回左边表的记录,前提是其记录对于右边表满足on语句中的判定条件。

?

selectwhere语句中都不能引用右边表的字段。

?

适用场景:

?

因为hive不支持in...exists结构,所以要使用左半开连接代替.

?

注意点:

?

semi-joininner join更高效

?

hive不支持右半开连接.

?

5.? mapjoinmap-side join

?

map-side joinhive可以在map端执行连接过程(对于在join时有一个是小表的情况)

?

?使用map-side join,需要配置下:

1hive0.7版本之前,需要加/*+ mapjoin(表名) */

?

select /*+ mapjoin(d) */ s.ymd,d.dividend from stocks s join dividends d

?

on s.ymd=d.ymd and s.symbol=d.symbol

?

where s.symbol=’AAPL

2hive0.7版本开始,设置hive.auto.convert.join=true

?

hive.auto.convert.join=true

?

hive.mapjoin.smalltable.filsize=25000000??? --使用这个优化的小表的大小(单位:字节)--注意:右外连接和全外连接不支持这个优化

?

备注:

?

(1). hivejoin语句,只支持等值连接。

(2). 注:pig提供的交叉生成功能支持“非等值连接”.

(3). hive目前不支持在join on子句中使用or

hive学习总结(4)—hive中所有join

原文:http://gaoxianwei.iteye.com/blog/2158804

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!