首页 > 数据库技术 > 详细

SparkSql连续问题

时间:2021-05-11 17:19:05      阅读:18      评论:0      收藏:0      [点我收藏+]
  1. 0_ : 表示按id分组时间排序的行号
  2. 1_ : 表示是否符合筛选条件, 例如卖出的钱/和上一条对比卖出的钱是不是2倍?
  3. 2_ : 找到连续行的结尾
  4. 3_ : 先filter 1_ 2_全是null的行, 用first( , true) 把连续的行分到一个组里.
consumer_id time code 0_row_num
part by consumer
order by time
1_lead 符合条件? 2_找一个结尾
1_ is null ? lag(0_): null
3_ 划分分组
过滤掉 1_ 2_全是null的行
first 忽略null
1 0 a 1 1 null 2
1 50 a 2 null 2 2
1 51 b 3 1 null 9
1 52 b 4 1 null 9
1 53 b 5 1 null 9
1 54 b 6 1 null 9
1 55 b 7 1 null 9
1 56 b 8 1 null 9
1 57 b 9 null 9 9
2 13 c 1 null null deleted
2 19 a 2 null null deleted
2 20 b 3 1 null 5
2 21 b 4 1 null 5
2 22 b 5 null 5 5

SparkSql连续问题

原文:https://www.cnblogs.com/chinashenkai/p/14754455.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!