当前位置: 首页 > news >正文

【Hive SQL 每日一题】找出各个商品销售额的中位数

文章目录

    • 测试数据
    • 需求说明
    • 需求实现
      • 方法1 —— 升序计算法
      • 方法2 —— 正反排序法
    • 补充

测试数据

-- 创建 orders 表
DROP TABLE IF EXISTS orders;
CREATE TABLE orders (order_id INT,product_id INT,order_date STRING,amount DOUBLE
);-- 插入 orders 数据
INSERT INTO orders VALUES
(1, 1, '2024-01-01', 100.0),
(2, 1, '2024-01-02', 150.0),
(3, 2, '2024-01-03', 200.0),
(4, 3, '2024-01-04', 50.0),
(5, 4, '2024-01-05', 300.0),
(6, 5, '2024-01-06', 250.0),
(7, 1, '2024-01-07', 80.0),
(8, 2, '2024-01-08', 220.0),
(9, 3, '2024-01-09', 60.0),
(10, 4, '2024-01-10', 310.0),
(11, 5, '2024-01-11', 230.0),
(12, 1, '2024-01-12', 90.0),
(13, 2, '2024-01-13', 210.0),
(14, 3, '2024-01-14', 70.0),
(15, 4, '2024-01-15', 320.0),
(16, 5, '2024-01-16', 240.0),
(17, 1, '2024-01-17', 110.0),
(18, 2, '2024-01-18', 190.0),
(19, 3, '2024-01-19', 80.0),
(20, 4, '2024-01-20', 330.0),
(21, 5, '2024-01-21', 260.0),
(22, 1, '2024-01-22', 120.0),
(23, 2, '2024-01-23', 230.0),
(24, 3, '2024-01-24', 90.0),
(25, 4, '2024-01-25', 340.0),
(26, 5, '2024-01-26', 270.0),
(27, 1, '2024-01-27', 130.0),
(28, 2, '2024-01-28', 180.0),
(29, 3, '2024-01-29', 100.0),
(30, 4, '2024-01-30', 350.0);

需求说明

求出每个商品的订单金额中位数。

结果示例:

product_idmedian
1110.0
2200.0
2210.0

结果按 product_id median 升序排列。

其中:

  • product_id 表示商品 ID;
  • median 表示该商品的中位数值。

需求实现

需求实现之前,我们需要明确中位数的概念,在日常生活中,我们是如何计算中位数的?

这里给定一个列表 [4,5,6,7,8],请你计算该列表的中位数,那么该如何进行呢?

首先,求中位数需要将数值按照从小到大的顺序排列,然后根据中位数列表的长度 n 不同有两种结果:

  • 如果列表长度 n 为偶数,那么中位数就有两个,为第 n/2 个和第 n/2+1 个;

  • 如果列表长度 n 为奇数,那么中位数就只有一个,为第 (n+1)/2 个。

这里给定的示例列表长度为 5,是一个奇数,故它的中位数为第 (5+1)/2 个,所以这个列表的中位数为 6

那么,学会了如何计算中位数,下面就说说如何在 SQL 中实现。

方法1 —— 升序计算法

selectproduct_id,amount median
from(selectproduct_id,amount,row_number() over(partition by product_id order by amount) rn,count(1) over(partition by product_id) cntfromorders)t1
wherern in (cnt/2,cnt/2+1,(cnt+1)/2)
order byproduct_id,median;

输出结果如下所示:

在这里插入图片描述

这个方法就是上面提到的中位数计算逻辑:

  • 分组按从小到大进行排名;

  • 分组统计总个数;

  • 判断排名是否处于中位数的结果中。

方法2 —— 正反排序法

selectproduct_id,amount median
from(selectproduct_id,amount,row_number() over(partition by product_id order by amount) rn_asc,row_number() over(partition by product_id order by amount desc) rn_desc,count(1) over(partition by product_id) cntfromorders)t1
wherern_asc >= cnt/2andrn_desc >= cnt/2
order byproduct_id,median;

输出结果如下:

在这里插入图片描述

这个方法的计算逻辑有所不同:

  • 分组按从小到大进行排名;

  • 分组按从大到小进行排名;

  • 分组统计总个数 cnt

  • 判断正反排名是否都满足 cnt/2

那么为什么这种方法可以取到中位数呢?我们一起来看看子查询 t1 的结果:

在这里插入图片描述

t1 子查询中可以看到,如果总个数为奇数时,那么该组中的中位数有且仅有一个,因为它无论时正序还是逆序排列,中位数的排名都不会发生改变,这种情况时,那么是不是满足条件 rn_asc = rn_desc 我们就能够找出长度为奇数组中的中位数。

如果总个数为偶数时,根据中位数的特性,该组的中位数一定是两个,那么如何设置条件呢?其实我们可以从正反序的排名中入手,同组中,当满足 rn_asc >= cnt/2rn_desc >= cnt/2 条件时,它就能够找出长度为偶数中的中位数。

将奇偶条件结合,可以省略直接写成 rn_asc >= cnt/2 and rn_desc >= cnt/2

补充

在 Hive 中有两个内置的聚合函数可以用于求近似中位数,分别是:

  • percentile(col,0.5)

  • percentile_approx(col,0.5)

其中第一个参数 col 为我们要求中位数的列,第二个参数固定为 0.5

它们的区别是,percentile 中指定的列必须是整型,不能是浮点型。如果是浮点型数据,则使用 percentile_approx 函数,它们在用法上并没有差别。

注意: 这两个函数无法严格的计算出中位数,它们计算的只是一个近似值,意味着和真正的中位数是存在一定差异的,特别是在数据量较少或数据分布不均的情况下。

如果不需要拿到准确的中位数值,只需要获取到这组数据中相对的中位数,那么则可以使用这两个内置函数,主要看业务指标口径是否需要达到精准。

使用示例

DROP TABLE IF EXISTS orders;
CREATE TABLE orders (order_id INT,product_id INT,amount DOUBLE
);INSERT INTO orders (order_id, product_id, amount) VALUES
(1, 1, 100.0),
(2, 1, 150.0),
(3, 1, 666.6),
(4, 3, 180.0),
(5, 3, 250.0),
(6, 3, 320.0);selectproduct_id,percentile_approx(amount,0.5) median
fromorders
group byproduct_id;

输出结果如下:

在这里插入图片描述

相关文章:

  • C语言 ——— 实用调试技巧(Visual Studio)
  • 业务系统核心模块资料访问性能优化实战
  • 【Rust】使用日志记录利器flexi_logger
  • 【系统架构设计师】十一、系统架构设计(层次架构风格|MVC|面向服务的架构风格|ESB)
  • 解决 Failed to get nested archive for entry BOOT-INF/lib/xxx.jar
  • 【编程语言】C++和C的异同点
  • DBA 数据库管理 表管理 数据批量处理。表头约束
  • SAC-IA粗配准算法记录
  • 景联文科技构建高质量心理学系知识图谱,助力大模型成为心理学科专家
  • AI艺术创作:掌握Midjourney和DALL-E的技巧与策略
  • python爬虫实现简单的代理ip池
  • 微信小程序-实现跳转链接并拼接参数(URL拼接路径参数)
  • 网络安全相关竞赛比赛
  • C语言 杂项笔记
  • 【hadoop大数据集群 2】
  • @jsonView过滤属性
  • [译] 怎样写一个基础的编译器
  • - C#编程大幅提高OUTLOOK的邮件搜索能力!
  • ES6系统学习----从Apollo Client看解构赋值
  • isset在php5.6-和php7.0+的一些差异
  • Python连接Oracle
  • Redux系列x:源码分析
  • Solarized Scheme
  • Three.js 再探 - 写一个跳一跳极简版游戏
  • vue.js框架原理浅析
  • 表单中readonly的input等标签,禁止光标进入(focus)的几种方式
  • 第13期 DApp 榜单 :来,吃我这波安利
  • 多线程事务回滚
  • 给新手的新浪微博 SDK 集成教程【一】
  • 关于List、List?、ListObject的区别
  • 模型微调
  • 前端之React实战:创建跨平台的项目架构
  • 实现菜单下拉伸展折叠效果demo
  • 一文看透浏览器架构
  • 用 vue 组件自定义 v-model, 实现一个 Tab 组件。
  • 策略 : 一文教你成为人工智能(AI)领域专家
  • # C++之functional库用法整理
  • # 数仓建模:如何构建主题宽表模型?
  • #include到底该写在哪
  • #Linux(Source Insight安装及工程建立)
  • #pragma预处理命令
  • $jQuery 重写Alert样式方法
  • (二)基于wpr_simulation 的Ros机器人运动控制,gazebo仿真
  • (附源码)ssm旅游企业财务管理系统 毕业设计 102100
  • (附源码)计算机毕业设计高校学生选课系统
  • (蓝桥杯每日一题)平方末尾及补充(常用的字符串函数功能)
  • (论文阅读23/100)Hierarchical Convolutional Features for Visual Tracking
  • (贪心) LeetCode 45. 跳跃游戏 II
  • (推荐)叮当——中文语音对话机器人
  • (循环依赖问题)学习spring的第九天
  • (原創) 未来三学期想要修的课 (日記)
  • (转)Oracle 9i 数据库设计指引全集(1)
  • (转)使用VMware vSphere标准交换机设置网络连接
  • (总结)Linux下的暴力密码在线破解工具Hydra详解
  • .NET Core使用NPOI导出复杂,美观的Excel详解