首页 > 其他 > 详细

hive窗口函数LAG/LEAD

时间:2019-11-10 20:24:11      阅读:83      评论:0      收藏:0      [点我收藏+]

Qusetion:

有一张hive表test,三列分别是user_id, click_id, click_time,即用户、点击id、点击时间。

需要计算用户点击时间差,就需要找到用户每个点击对应的最近一次点击时间。

user1   A   1573001309214
user1    B    1573043128833
user1    C    1573043810520
user1    D    1573043929952
user1    E    1573043914374
user1    F    1572994687046
user1    G    1572994687915
user1    H    1573043779651
user2    I    1572995016055
user2    J    1573046856088
user2    K    1573046893571
user2    L    1572981865480
user2    M    1572995095611
user2    N    1572974591103

 

Answer:

select user_id, click_id, click_time, 

LAG(click_time, 1) OVER(PARTITION BY user_id ORDER BY click_time asc) AS last_click_time 

from test;

结果:最后一列就是用户该次点击对应的最近一次点击时间。第一行F事件是user1的第一个点击,所以没有上一条。

技术分享图片

 

解释:

OVER(PARTITION BY user_id ORDER BY click_time asc) 

含义:按user_id 列分组,组内按click_time 列排序,asc 表示增序(desc 降序)

LAG函数用法

LAG(col,n,DEFAULT)  用于统计窗口内往上第n行。

col 参数是列名

n 参数是指窗口内当前行往上第n行

DEFAULT 参数为默认值(当往上第n行为NULL的时候取默认值,如果不指定,就是NULL)

 

LEAD函数用法

LEAD(col, n, DEFAULT),用于统计窗口内向下第n行

col 参数是列名

n 参数是指窗口内当前行向下第n行

DEFAULT 参数为默认值(当向下第n行为NULL的时候取默认值,如果不指定,就是NULL)

 例如,在test表中,取出每个点击对应的后面的第2个点击。

select user_id, click_id, click_time,

LEAD(click_time, 2) OVER(PARTITION BY user_id ORDER BY click_time asc) AS last_two_click_time

from test;

技术分享图片

 

 

 

 

 

hive窗口函数LAG/LEAD

原文:https://www.cnblogs.com/min2day/p/11831242.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!