当前位置: 首页 > news >正文

机器学习特征分析

机器学习的常规流程

在真正进入机器学习算法之前,数据准备和处理过程会尤为重要,这直接关系到后续模型的效果和最终的业务判决。

数据分析

什么是数据分析

数据分析指对原始数据进行检查、清理、转换及筛选等一系列动作,找到数据对结果的影响关系。

怎么数据分析

数据分析的三板斧:数据对比、数据细分和数据溯源。

  • 数据对比:对比是能够看到数据自身以及和其它变量的关系。比如,电商场景中上个月和这个月的用户数量变化,GMV变化;
  • 数据细分:系分是指对数据增加维度、降低粒度,便于更好的对比。比如客群,会分为男性、女性,性别下又会有年龄的划分,年龄后还会有职业等等;
  • 数据溯源:分析的数据有可能是二手的,得到的信息片面、阉割,所以需要找到一手原始数据,真实反应业务情况。当然,另一种可能是数据本身采集指标不合理,所以需要找到源头;

数据分析的维度

描述性统计指标
  • 集中趋势看平均值、中位数和众数
  • 离散程度看极差、方差、标准差、离散系数;(极差:样本最大值和最小值的间距; 方差:度量数据离散程度;标准差:反应数据在均值附近的波动;离散系数:标注差和均值的比例)
  • 分布形态:正态分布、高斯分布、峰度等;通常,数据处于正态分布情况下,训练越容易收敛,所以会看到数据的归一化处理;
交叉维度
  • 相关系数:反应两个变量的相关性;
  • 线性回归:回归分析两种或两种以上变量的相互依赖;有一元线性回归和多元线性回归。
概率分布
  • 连续性变量正态分布
  • 离散性变量伯努利分布、泊松分布

数据分析抽样方式

  • 随机抽样
  • 分层抽样
  • 群体抽样
  • 系统抽样

数据与业务关联

数据分析要确定业务目标,根据业务需求制定合理的metrics,因业务和场景而异,本文不做过多赘述;

数据清理与预处理

数据规整

现实中的数据,有的有量纲,比如身高、体重,有的没有量纲,比如性别、职业,不同类型的数据直接给到模型,对模型的精度影响非常大,所以需要对数据做规整,消除量纲差异性;

数据标准化

数据标准化主要是为了将数据按比例缩放,使之落入一个特定的小区间,如0-1之间或者-1到1之间。这样可以消除数据单位对结果的影响,使得不同量级的特征在计算时可以被公平地对待。

 数据归一化

归一化的重点在于将数据的范围缩放到一个特定的区间,最常见的是[0, 1]区间。它的主要目标是改变变量的尺度,而不一定要求数据符合特定的分布形态,更多是为了处理特征之间的可比性问题,尤其是在距离度量(如欧氏距离)相关的算法中更为重要。归一化方法是min-max缩放;

异常值监测和分析

异常值分析是检验数据中是否有不合理的数据。注意:数据异常值不一定是错误值

描述统计性分析

如上所述,常见的有min/max/avg/mid等,明显不合理的数据清除或填充处理

Z-Score分析(描述与平均值的距离是标准差的多少倍)

在正态分布下,距离平均值 3\sigma之外的值出现的概率为 P(|x-μ|>3σ)<=0.003,属于极个别的小概率事件。如果观测值与平均值的差值超过3倍标准差,那么可以将其视为异常值。

IQR异常监测

四分位点内距(Inter-Quartile Range,IQR),是指在第75个百分点与第25个百分点的差值,或者说,上四分位数与下四分位数之间的差。通常把小于Q1-1.5*IQR和Q3+1.5*IQR的数据视为离群点;

异常值处理

异常值处理有3中模式:删除异常值数据、插补替换异常值和不处理,将异常值视为特殊的类别;

缺失值处理

对于缺失值,通常的处理方式是删除缺失值所在的数据行、填充缺失值、插补缺失值。

业务分析模型

ABTest 最常用的线上业务对比方法;
RFM分析

衡量客户价值和客户创利能力的重要工具和手段。通过细分Recently最近一次消费、Frequency消费频率和Monetary消费金额。

AARRR漏洞分析法,描述产品生命周期中用户的参与行为深度
同期群分析,分析性质完全一样的、可对比群体随时间的变化
对比分析,环比、同比、标准对比等

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • macos安装ArgoCD
  • Docker 学习 Day 1
  • 鸿蒙开发(API 12 Beta6版)【通用属性协议】 网络篇
  • 十分钟学会Kubernetes(K8S) 部署SpringBoot3.0
  • Java语言程序设计基础篇_编程练习题**17.20 (二进制编辑器)
  • 系统编程-多路IO复用
  • NLP自然语言处理学习过程中知识点总结
  • CSS具有哪些特点呢?
  • 滚雪球学Java(88):连接无限,资源有度:JavaSE数据库连接池深度解析,有两下子!
  • 顶级出图效果!免费在线使用FLux.1 模型,5s出图无限制!
  • 三十四、模型绑定与验证
  • 客户端负载均衡Ribbon 小实例
  • 足球预测可以人工智能AI吗
  • c++ codedump文件输出具体出错位置
  • 汇聚创意精英?西安数字影像产业园如何实现这一壮举?
  • 《Javascript数据结构和算法》笔记-「字典和散列表」
  • 【162天】黑马程序员27天视频学习笔记【Day02-上】
  • CSS盒模型深入
  • EventListener原理
  • Java超时控制的实现
  • python学习笔记 - ThreadLocal
  • Redux 中间件分析
  • SQLServer之创建显式事务
  • 翻译:Hystrix - How To Use
  • 分享自己折腾多时的一套 vue 组件 --we-vue
  • 给初学者:JavaScript 中数组操作注意点
  • 近期前端发展计划
  • 如何在GitHub上创建个人博客
  • 使用iElevator.js模拟segmentfault的文章标题导航
  • 机器人开始自主学习,是人类福祉,还是定时炸弹? ...
  • #NOIP 2014# day.1 生活大爆炸版 石头剪刀布
  • #QT(智能家居界面-界面切换)
  • #我与虚拟机的故事#连载20:周志明虚拟机第 3 版:到底值不值得买?
  • (2)STL算法之元素计数
  • (2022版)一套教程搞定k8s安装到实战 | RBAC
  • (Oracle)SQL优化基础(三):看懂执行计划顺序
  • (Redis使用系列) Springboot 在redis中使用BloomFilter布隆过滤器机制 六
  • (每日一问)设计模式:设计模式的原则与分类——如何提升代码质量?
  • (十五)使用Nexus创建Maven私服
  • (十一)c52学习之旅-动态数码管
  • (原創) 如何讓IE7按第二次Ctrl + Tab時,回到原來的索引標籤? (Web) (IE) (OS) (Windows)...
  • (转)linux自定义开机启动服务和chkconfig使用方法
  • (转)shell调试方法
  • .net framework profiles /.net framework 配置
  • .net mvc部分视图
  • .Net 垃圾回收机制原理(二)
  • .net遍历html中全部的中文,ASP.NET中遍历页面的所有button控件
  • .Net程序猿乐Android发展---(10)框架布局FrameLayout
  • .net下的富文本编辑器FCKeditor的配置方法
  • @TableLogic注解说明,以及对增删改查的影响
  • [ vulhub漏洞复现篇 ] Apache APISIX 默认密钥漏洞 CVE-2020-13945
  • [1127]图形打印 sdutOJ
  • [Armbian] 部署Docker版Home Assistent,安装HACS并连接米家设备
  • [BZOJ2281][SDOI2011]黑白棋(K-Nim博弈)
  • [C#]winform部署yolov5-onnx模型