SQL之重分组算法实践【累加器思想】--Hivesql面试题31
2021/7/17 19:07:01
本文主要是介绍SQL之重分组算法实践【累加器思想】--Hivesql面试题31,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
目录
0 需求分析
1 数据准备
2 数据分析
3 小结
0 需求分析
如下为电商公司用户访问时间数据
id | ts |
1001 | 17523641234 |
1001 | 17523641256 |
1002 | 17523641278 |
1001 | 17523641334 |
1002 | 17523641434 |
1001 | 17523641534 |
1001 | 17523641544 |
1002 | 17523641634 |
1001 | 17523641638 |
1001 | 17523641654 |
某个用户相邻的访问记录如果时间间隔小于 60 秒,则分为同一个组,结果为:
id | ts | groupid |
1001 | 17523641234 | 1 |
1001 | 17523641256 | 1 |
1001 | 17523641334 | 2 |
1001 | 17523641534 | 3 |
1001 | 17523641544 | 3 |
1001 | 17523641638 | 4 |
1001 | 17523641654 | 4 |
1002 | 17523641278 | 1 |
1002 | 17523641434 | 2 |
1002 | 17523641634 | 3 |
1 数据准备
(1)数据
vim visit.txt
1001 17523641234 1001 17523641256 1002 17523641278 1001 17523641334 1002 17523641434 1001 17523641534 1001 17523641544 1002 17523641634 1001 17523641638 1001 17523641654
(2)建表
create table if not exists visit( id string, ts string ) row format delimited fields terminated by '\t' ;
(3)加载数据
load data local inpath "/home/centos/dan_test/visit.txt" into table visit;
(4) 查询数据
hive> select * from visit; OK 1001 17523641234 1001 17523641256 1002 17523641278 1001 17523641334 1002 17523641434 1001 17523641534 1001 17523641544 1002 17523641634 1001 17523641638 1001 17523641654 Time taken: 1.77 seconds, Fetched: 10 row(s)
2 数据分析
目标:某个用户相邻记录如果时间间隔小于 60 秒,则分为同一个组。
如果不用sql,正常的思路就是按ts排序,将相邻的两天记录先相减得到的差值先进行观察找规律
用SQL实现上述思路,具体SQL如下:
select id, ts, ts-lag(ts,1,0) over(partition by id order by ts) from visit
计算结果如下:
-------------------------------------------------------------------------------- OK 1001 17523641234 1.7523641234E10 1001 17523641256 22.0 1001 17523641334 78.0 1001 17523641534 200.0 1001 17523641544 10.0 1001 17523641638 94.0 1001 17523641654 16.0 1002 17523641278 1.7523641278E10 1002 17523641434 156.0 1002 17523641634 200.0 Time taken: 10.196 seconds, Fetched: 10 row(s)
我们按照上述的中间结果手动按照题意进行分组,要求的是相邻时间间隔小于60的被分成一组,手动分组如下:
我们在手动进行分组的过程中,发现这样一个规律当遇到时间间隔大于60的数据进行加一操作,也就是我们通常所说的累加器思想,类似于流式数据(按时间序列进行排序后)进入累加器中当满足某种条件后(或发生了某种变化后)计数器就加1,这样就把连续的时序数据就区分开了,因为我需要的是把每一次变化都分别放在一个组里,不变的放一个组里,我需要的是观察截止当前发生变化了的次数,那么计数器里面保留的就是截止当前发生变化的次数(可以理解为截止当前在线人数),如果按照这种思想去分组,那么中间没变化的会发生持续一段时间,如果有变化,会显示新增人数,这样不变的数据就被区分出来。
根据上述分析,我们知道累加的实现在SQL中就是sum() over(),于是我们最终的SQL如下:
select id, ts, sum(if(ts_diff>=60,1,0)) over(partition by id order by ts) as groupid from( select id, ts, ts-lag(ts,1,0) over(partition by id order by ts) as ts_diff from visit )t
计算结果如下:
-------------------------------------------------------------------------------- OK 1001 17523641234 1 1001 17523641256 1 1001 17523641334 2 1001 17523641534 3 1001 17523641544 3 1001 17523641638 4 1001 17523641654 4 1002 17523641278 1 1002 17523641434 2 1002 17523641634 3 Time taken: 23.026 seconds, Fetched: 10 row(s)
3 小结
本文总结了一种重新分组的方法,从不同的角度来认识该算法,该方法实际上在业务中经常被用到,之前我们讲到的分桶重排序算法等实际上和这个是类似的,只不过本文从不同的角度来解释该算法,让读者能够更深刻的认识该算法,从而更好的应用实践中,解决实际问题。
这篇关于SQL之重分组算法实践【累加器思想】--Hivesql面试题31的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2025-01-11有哪些好用的家政团队管理工具?
- 2025-01-11营销人必看的GTM五个指标
- 2025-01-11办公软件在直播电商前期筹划中的应用与推荐
- 2025-01-11提升组织效率:上级管理者如何优化跨部门任务分配
- 2025-01-11酒店精细化运营背后的协同工具支持
- 2025-01-11跨境电商选品全攻略:工具使用、市场数据与选品策略
- 2025-01-11数据驱动酒店管理:在线工具的核心价值解析
- 2025-01-11cursor试用出现:Too many free trial accounts used on this machine 的解决方法
- 2025-01-11百万架构师第十四课:源码分析:Spring 源码分析:深入分析IOC那些鲜为人知的细节|JavaGuide
- 2025-01-11不得不了解的高效AI办公工具API