当前位置: 首页 > news >正文

SQLServer · 特性分析 · SQL Server 2012的分析函数未必都理解透了(1)


title: SQLServer · 特性分析 · SQL Server 2012的分析函数未必都理解透了

author: 石沫

1. 背景

最近有用户在做一些项目,使用到SQL SERVER 2012的一些新特性,比如SQL SERVER 提供的8个非常有用的分析函数,一开始我看了相关的文档,感觉内容很多,理解不清楚,不透彻。而我现在想来,其实不需要那么清楚,我觉得值要理解他的基本用法就足以应对工作,下面根据我的理解,以最简单的方式解析这些分析函数。

1. 分析函数CUME_DIST

微软的定义:
计算某个值在 SQL Server 2012 中的一组值内的累积分布。CUME_DIST 计算某指定值在一组值中的相对位置。 对于行 r,假定采用升序,r 的 CUME_DIST 是值低于或等于 r 的值的行数除以在分区或查询结果集中求出的行数。
其实,我看了也不是很懂,我们看一个实例,就很清楚了。
首先,我们构造一组数据:



DECLARE
    @analytic TABLE( 
        name varchar(35) ,
        dept varchar(35),
        salary money
    )
INSERT INTO @analytic 
        VALUES
--bd
('andy01','bd',15000),
('andy02','bd',12000),
('andy03','bd',12000),
('andy04','bd',10000),
('andy05','bd',8000),
--ca
('andy06','ca',20000),
('andy07','ca',18000),
('andy08','ca',18000),
('andy09','ca',15000),
('andy10','ca',12000),
('andy11','ca',12000),
('andy12','ca',10000),
('andy13','ca',8000),
('andy14','ca',8000),
('andy15','ca',8000)

SELECT 
    dept,name ,salary,
    CUME_DIST() OVER(PARTITION BY dept ORDER BY salary)  AS cume_dist_ 
FROM @analytic
ORDER BY dept,salary DESC

然后我们再看看结果:
1

这是个什么意思呢? 按照dept分组,根据salary逻辑排序,针对每一个分组里的每一个值,在该分组下等于或者小于自己的salary的分布百分比。举个例子,bd部门的andy02,salary为12000,那么等于或者小于这个12000的有4条,总共5条记录,因此那么CUME_DIST()=4/5 = 0.8。 同理,其他也是如此计算,这下就明白了吧。

2. 分析函数LAST_VALUE

微软的定义:
返回 SQL Server 2012 中有序值集中的最后一个值。
好像我还是不太懂。那么还是看看一个示例吧:



DECLARE
    @analytic TABLE( 
        name varchar(35) ,
        dept varchar(35),
        salary money ,
        hiredate date
    )
INSERT INTO @analytic 
        VALUES
--bd
('andy01','bd',15000,'2002-01-09'),
('andy02','bd',12000,'2003-01-09'),
('andy03','bd',12000,'2003-02-09'),
('andy04','bd',10000,'2005-05-09'),
('andy05','bd',8000,'2003-06-09'),
--ca
('andy06','ca',20000,'2003-01-09'),
('andy07','ca',18000,'2005-02-09'),
('andy08','ca',18000,'2005-03-09'),
('andy09','ca',15000,'2004-01-09'),
('andy10','ca',12000,'2003-06-09'),
('andy11','ca',12000,'2002-09-09'),
('andy12','ca',10000,'2003-07-09'),
('andy13','ca',8000,'2003-08-09'),
('andy14','ca',8000,'2003-11-09'),
('andy15','ca',8000,'2003-01-09')

SELECT 
    dept,name ,salary,hiredate,
    LAST_VALUE(hiredate) OVER(PARTITION BY dept ORDER BY salary)  AS last_value_ 
FROM @analytic

我们再看看这个运行结果:
2

这个意思是按照OVER子句中ORDER BY 根据salary排序,取salary最后行的hiredate值作为最后的LAST VALUE,重点在于salary有相同时需要取salary排序后的最后一条作为其他的LAST VALUE。

3. 分析函数FIRST_VALUE

微软的定义:
返回 SQL Server 2012 中有序值集中的第一个值。 从这个地方看起来,似乎跟LAST_VALUE是相反的一个意思,实际上是不是这样,我们来看看实例:

DECLARE
    @analytic TABLE( 
        name varchar(35) ,
        dept varchar(35),
        salary money ,
        hiredate date
    )
INSERT INTO @analytic 
        VALUES
--bd
('andy01','bd',15000,'2002-01-09'),
('andy02','bd',12000,'2003-01-09'),
('andy03','bd',12000,'2003-02-09'),
('andy04','bd',10000,'2005-05-09'),
('andy05','bd',8000,'2003-06-09'),
--ca
('andy06','ca',20000,'2003-01-09'),
('andy07','ca',18000,'2005-02-09'),
('andy08','ca',18000,'2005-03-09'),
('andy09','ca',15000,'2004-01-09'),
('andy10','ca',12000,'2003-06-09'),
('andy11','ca',12000,'2002-09-09'),
('andy12','ca',10000,'2003-07-09'),
('andy13','ca',8000,'2003-08-09'),
('andy14','ca',8000,'2003-11-09'),
('andy15','ca',8000,'2003-01-09')

SELECT 
    dept,name ,salary,hiredate,
    FIRST_VALUE(name) OVER(PARTITION BY dept ORDER BY salary)  AS first_value_ 
FROM @analytic

3

显然,这个与LAST_VALUE不是同一个意思,OVER子句根据ORDER BY 来排序,按dept分组来确定这个分组的第一个值,而不是根据salary的值来确定的,所以与LAST_VALUE是不一样的,将FIRST_VALUE(name)修改为FIRST_VALUE(hiredate)后,对比看得更清楚。这个很有蒙蔽性。

4. 分析函数LEAD

微软的定义:
访问相同结果集的后续行中的数据,而不使用 SQL Server 2012 中的自联接。 LEAD 以当前行之后的给定物理偏移量来提供对行的访问。 在 SELECT 语句中使用此分析函数可将当前行中的值与后续行中的值进行比较。
感觉这个好理解多了。不过我们还是看看一个示例来说明:



DECLARE
    @analytic TABLE( 
        name varchar(35) ,
        dept varchar(35),
        salary money ,
        hiredate date
    )
INSERT INTO @analytic 
        VALUES
--bd
('andy01','bd',15000,'2002-01-09'),
('andy02','bd',12000,'2003-01-09'),
('andy03','bd',12000,'2003-02-09'),
('andy04','bd',10000,'2005-05-09'),
('andy05','bd',8000,'2003-06-09'),
--ca
('andy06','ca',20000,'2003-01-09'),
('andy07','ca',18000,'2005-02-09'),
('andy08','ca',18000,'2005-03-09'),
('andy09','ca',15000,'2004-01-09'),
('andy10','ca',12000,'2003-06-09'),
('andy11','ca',12000,'2002-09-09'),
('andy12','ca',10000,'2003-07-09'),
('andy13','ca',8000,'2003-08-09'),
('andy14','ca',8000,'2003-11-09'),
('andy15','ca',8000,'2003-01-09')

SELECT 
    dept,name,hiredate,salary,
    LEAD(salary,1,0) OVER(PARTITION BY dept ORDER BY salary) AS lead_,
    (LEAD(salary,1,0) OVER(PARTITION BY dept ORDER BY salary)-salary) AS diff_salary 
FROM @analytic

我们再看看结果:
4

这个还是比较容易理解的。按照dept分区,根据salary排序,比较当前记录和后一条记录(偏移量为1)的salary值的差值,这个非常的使用

后面还有4个函数,下一篇分析:LAG,PERCENT_RANK ,PERCENTILE_DISC,PERCENTILE_CONT

相关文章:

  • 重定向Http status code 303 和 302
  • 输入一组数组,回车结束
  • Java反射在JVM的实现
  • 腾讯优测优分享 | 你是否体验过Android手机插入耳机后仍外放的尴尬?
  • Android IOS WebRTC 音视频开发总结(八十五)-- 使用WebRTC广播网络摄像头视频(下)...
  • jdbc conn.commit()提交事务和 rollback()使用
  • 每天一个linux命令:mkdir命令
  • 程序(进程)内存分布解析【转】
  • jenkins updatecenter更新插件有问题
  • Django+uwsgi+Nginx安装部署
  • 基于人脸识别的商业大数据4
  • 用xargs批量删除Redis的keys的技巧
  • php中的邮件技术
  • 一起参Ember.js讨论、问答社区。
  • 初学Redis(1)——认识Redis
  • IE9 : DOM Exception: INVALID_CHARACTER_ERR (5)
  • “寒冬”下的金三银四跳槽季来了,帮你客观分析一下局面
  • 【笔记】你不知道的JS读书笔记——Promise
  • CentOS 7 防火墙操作
  • CSS居中完全指南——构建CSS居中决策树
  • Java应用性能调优
  • js学习笔记
  • Linux快速配置 VIM 实现语法高亮 补全 缩进等功能
  • Meteor的表单提交:Form
  • mysql外键的使用
  • Perseus-BERT——业内性能极致优化的BERT训练方案
  • tensorflow学习笔记3——MNIST应用篇
  • Transformer-XL: Unleashing the Potential of Attention Models
  • VirtualBox 安装过程中出现 Running VMs found 错误的解决过程
  • Windows Containers 大冒险: 容器网络
  • 阿里云爬虫风险管理产品商业化,为云端流量保驾护航
  • 高性能JavaScript阅读简记(三)
  • 给github项目添加CI badge
  • 开源地图数据可视化库——mapnik
  • 你不可错过的前端面试题(一)
  • 适配iPhoneX、iPhoneXs、iPhoneXs Max、iPhoneXr 屏幕尺寸及安全区域
  • 我的业余项目总结
  • 小程序滚动组件,左边导航栏与右边内容联动效果实现
  • 怎样选择前端框架
  • 正则表达式小结
  • 2017年360最后一道编程题
  • #define,static,const,三种常量的区别
  • #HarmonyOS:基础语法
  • (17)Hive ——MR任务的map与reduce个数由什么决定?
  • (2)STM32单片机上位机
  • (27)4.8 习题课
  • (c语言)strcpy函数用法
  • (NO.00004)iOS实现打砖块游戏(十二):伸缩自如,我是如意金箍棒(上)!
  • (二)构建dubbo分布式平台-平台功能导图
  • (附源码)springboot码头作业管理系统 毕业设计 341654
  • (过滤器)Filter和(监听器)listener
  • (经验分享)作为一名普通本科计算机专业学生,我大学四年到底走了多少弯路
  • (每日持续更新)信息系统项目管理(第四版)(高级项目管理)考试重点整理 第13章 项目资源管理(七)
  • (学习日记)2024.04.04:UCOSIII第三十二节:计数信号量实验
  • (正则)提取页面里的img标签