当前位置: 首页 > news >正文

成为AI产品经理——模型评估指标

目录

一、模型评估分类

1.在线评估

2.离线评估 

二、离线模型评估

1.特征评估

① 特征自身稳定性

② 特征来源稳定性

③ 特征成本

2.模型评估

① 统计性评估

覆盖度

最大值、最小值

分布形态

② 模型性能指标

分类问题

回归问题

 ③ 模型的稳定性


模型评估指标分五小节课程,这节课全局讲述模型评估指标有什么,下三节课重点讲解模型性能指标,了解他们的计算;最后一节课,详细讲解模型的稳定性指标。

一、模型评估分类

模型评估分为:离线评估和在线评估两类。

1.在线评估

在线评估通常是将模型部署上线后,使用线上真实数据对模型进行评估。通常会采取ABTest方式来评估业务的表现。

ABTest的操作方式是先导入一部分流量到模型中,使得一部分用户使用模型训练后的商品页面,而一部分用户看到原来的界面,这两部分用户互相独立,测试1周或1天,观察两者点击率或者购买转化率的差异,判断模型是否达到业务预期。

如果想继续了解ABTest,请查看详情:

产品经理需要懂的AB测试 - 知乎 (zhihu.com)

如何避免产品开发的致命陷阱?AB测试是你不可或缺的救命稻草! | 人人都是产品经理 (woshipm.com)

2.离线评估 

离线评估是模型在上线之前进行的验证和评估工作,如果验收不通过,算法同学要进行模型的调整和优化。

离线评估更关注模型指标,如:准确率、稳定性等;而上线评估更加关注业务指标,如:用户转化率、优惠劵的核销率。

接下来我们为了讲述模型指标,主要关注离线模型的评估。

二、离线模型评估

离线模型评估分为特征评估模型评估两类。

特征是模型的基础,所以我们不仅要对模型最终效果进行评估,还要对特征进行评估。

1.特征评估

对于特征评估我们并不是对所有的特征进行评估,我们只对重要特征进行评估。那么我们就需要和算法同学进行沟通,了解哪些特征比较重要。

特征评估包括三点:特征自身稳定性、特征来源稳定性、特征成本

① 特征自身稳定性

特征自身稳定性我们会使用PSI指标进行评估。PSI指标(模型随着时间推移发生变化而不稳定的指标)。特征自身稳定性会影响模型的整体效果,所以我们需要测评重要特征是否达到稳定指标。

② 特征来源稳定性

特征一般分为:内部来源和外部来源

如果特征是从集团内部接入的,那我们需要看他从哪条业务线获取的,这个业务的稳定性如何,业务方是否有可能中止共享数据或者收回数据。

如果特征是从集团外部接入的,我们需要审核外部公司的资质是否合法,技术储备是否完善

③ 特征成本

不同来源的特征可能成本也不相同,如果特征来源是集团内部业务,可能不需要成本或者需要年终进行成本均摊。如果是外部购买的特征数据,那就正常支付就好了。

作为产品经理,我们在进行评估的时候要充分考虑到付费特征在模型中产生的增益是否大于成本,如果成本过高,那么我们考虑是否可以替换特征或者使用数据缓存的方式减少调用

2.模型评估

模型评估也包括三部分:统计性评估、模型性能指标和模型的稳定性。

① 统计性评估

 在进行模型性能指标和稳定性评估之前,我们首先要对统计性能进行评估。包括:覆盖度、最大值、最小值、分布规律。

覆盖度

计算公式:打分的人数/需要打分的人数

结果越大,覆盖度越大。比如我们要做一个用户逾期还款预测的模型,如果覆盖率只有60%,那么银行就没有办法按照这个模型进行决策,这个模型就是没有用的。

最大值、最小值

我们需要对最大值和最小值进行评估。

如果最大值和最小值相隔太近,例如:0-100作为一个信用划分的区间,用户很容易集中在一个分数段,难以进行用户的区分。如果将0-100作为一个划分的总区间,相当于过去大的1份区间被细化成为现在的10份,就会更便于划分用户。

分布形态

我们的预测结果和我们的人群行为的分布应该符合一定的规律。

比如:预测用户消费能力,人群的分布情况应该满足应该满足正态分布。 

业务场景不同,需要重点观察的统计性能指标也不同。

② 模型性能指标

根据问题的差异被分为:回归问题和分类问题。

模型被分为:分类模型和回归模型。不同类型的模型评估指标不相同。

分类问题

主要指标:混淆矩阵、KS、AUC。

将混淆矩阵作为基础工具,我们可以计算出召回率、准确率。评判模型的区分能力。我们也可以计算出TPR、FPR,从而计算出AUC和KS等相关指标。

因此,混淆矩阵是二分类问题的基础工具。

回归问题

主要指标:MAE(平均绝对误差)、MSE(均方误差)、RMSE(均方根误差)、R方等。 

这些指标主要预测数值回归问题。

 ③ 模型的稳定性

最后,我们需要评估模型整体效果的稳定性。主要使用PSI指标进行评估。

这节课我们主要从全局角度了解模型评估,评估指标计算方法后面文章会详细说明。

今天的知识思维导图如下所示:

参考文献:刘海丰——《成为AI产品经理》 

相关文章:

  • Docker 的基本概念和优势,以及在应用程序开发中的实际应用。
  • mysql常见的十种错误简要说明
  • laravel引入element-ui后,blade模板中使用elementui时,事件未生效问题(下载element-ui到本地直接引入项目)
  • HarmonyOS应用开发者高级认证(题库)
  • 使用Java连接Hbase
  • 上海交通大学生存手册
  • @Async注解的坑,小心
  • 『亚马逊云科技产品测评』活动征文|AWS 域名注册、启动与连接 EC2 新实例、端口开放详细教程
  • Ubuntu 22.04.3编译AOSP13刷机
  • R语言如何实现多元线性回归
  • HTML新手入门笔记整理:块元素和行内元素
  • Django之importlib模块
  • angular 实现模块共享
  • WebSocket了解
  • ErphpdownV16.21插件 安装教程和插件下载
  • 深入了解以太坊
  • [rust! #004] [译] Rust 的内置 Traits, 使用场景, 方式, 和原因
  • 07.Android之多媒体问题
  • in typeof instanceof ===这些运算符有什么作用
  • JAVA SE 6 GC调优笔记
  • JAVA 学习IO流
  • JDK9: 集成 Jshell 和 Maven 项目.
  • Mocha测试初探
  • Python socket服务器端、客户端传送信息
  • Python十分钟制作属于你自己的个性logo
  • Python学习笔记 字符串拼接
  • Rancher-k8s加速安装文档
  • React 快速上手 - 06 容器组件、展示组件、操作组件
  • TypeScript实现数据结构(一)栈,队列,链表
  • vue-cli3搭建项目
  • webpack4 一点通
  • webpack入门学习手记(二)
  • 聊聊directory traversal attack
  • 免费小说阅读小程序
  • 浅谈Kotlin实战篇之自定义View图片圆角简单应用(一)
  • 如何在GitHub上创建个人博客
  • 我感觉这是史上最牛的防sql注入方法类
  • 移动端解决方案学习记录
  • 译有关态射的一切
  • gunicorn工作原理
  • 蚂蚁金服CTO程立:真正的技术革命才刚刚开始
  • ​二进制运算符:(与运算)、|(或运算)、~(取反运算)、^(异或运算)、位移运算符​
  • ​总结MySQL 的一些知识点:MySQL 选择数据库​
  • # 执行时间 统计mysql_一文说尽 MySQL 优化原理
  • #我与Java虚拟机的故事#连载01:人在JVM,身不由己
  • #我与Java虚拟机的故事#连载07:我放弃了对JVM的进一步学习
  • (03)光刻——半导体电路的绘制
  • (14)Hive调优——合并小文件
  • (20050108)又读《平凡的世界》
  • (3)llvm ir转换过程
  • (LeetCode) T14. Longest Common Prefix
  • (libusb) usb口自动刷新
  • (附源码)基于SSM多源异构数据关联技术构建智能校园-计算机毕设 64366
  • (力扣记录)1448. 统计二叉树中好节点的数目
  • (亲测)设​置​m​y​e​c​l​i​p​s​e​打​开​默​认​工​作​空​间...