当前位置: 首页 > news >正文

机器学习python实践——数据“相关性“的一些补充性个人思考

在上一篇“数据白化”的文章中,说到了数据“相关性”的概念,但是在统计学中,不仅存在“相关性”还存在“独立性”等等,所以,本文主要对数据“相关性”进行一些补充。当然,如果这篇文章还能入得了各位“看官”的法眼,麻烦点赞、关注、收藏,支持一下!

本文主要想解释两个问题:一个是“不相关”和“独立性”的区别一个是降低数据“相关性”有啥用

一、“不相关”和“独立性”有什么区别

相信很多人对于“相关性”中的“不相关”和“独立性”傻傻分不清,所以先给出结论:不相关不一定独立,独立一定不相关,。至于为什么,先给出私人版的“相关性”和“独立性”的定义,然后再给出一个例子让大家直观感受一下:

“相关性”:数据特征变化趋势始终一致或相反

“独立性”:数据特征之间不存在影响现象

先说明“不相关不一定独立”,举个例子:

比如说医生和律师,医生的工资是由国家发的,每个月医生的工资收入都是固定的,而律师的工资是由律师事务所发的,律师每个月都是在增长的,从这里我们可以看出,医生的工资变化趋势是不增不减,而律师的工资变化趋势是增涨的,两者工资变化明显不存在一致或者相反的变化趋势,所以两者工资收入是不相关的,但是如果律师得了病,只有一名医生能看,这个医生又因为工资老是不涨闹情绪不给律师看病,那么律师势必无法工作,收入也就会暴跌,从这我们就可以看出医生的收入可能会在某种程度上影响到律师收入,这就表明两者是不独立的,即医生工资变化会对律师工资变化产生影响。

上面的例子说明了“不相关不一定独立”,那么下面就对“独立一定不相关”进行说明。

从上面的定义可以看出,“独立性”侧重于“影响”,“相关性”侧重于“趋势”,那么是否存在两个特征独立且相关的情况呢?我的答案是:不存在!!!因为独立意味着“随机”,而且是完全随机,这意味着没有任何规律可以寻找,这样特征之间才能保持互不影响,就好像,你都猜不到我心里想的,你怎么可能跟我同频共振,既然都没有没有规律可循,那么数据特征之间也就不存在“同增同减”或者“一减一增”这样的规律,也就表明数据特征之间不存在一致或相反的变化趋势,即数据特征之间不相关。

二、降低数据“相关性”有啥用

网上看了很多,但是个人感觉最有用的就是:降低数据“相关性”可以降低计算难度,下面举例说明:

比如说,上图中,两数据蓝点的在原始坐标系下的坐标分别是(-1,-1)和(1,1),对他进行进行诸如PCA等去"相关性"的方法降低数据两个特征之间的“相关性”。于是,建立了一个新的坐标系(两红线),新坐标系的横轴就是两点之间的连线,所以在不同坐标系下,同样的两点坐标矩阵就发生了如下的变化:

从上面例子我们可以很直观的看到,对数据进行去“相关性”操作后,数据矩阵零更多了,这也就表明计算难度就降低了,所以降低数据“相关性”可以降低计算难度

本文参考:

马同学 (matongxue.com)

概率问题 独立一定不相关,不独立一定相关,相关一定不独立,不相关不一定独立 是这个关系么_百度知道 (baidu.com)

相关文章:

  • NettyのEventLoopChannel
  • 超高清图像生成新SOTA!清华唐杰教授团队提出Inf-DiT:生成4096图像比UNet节省5倍内存。
  • 银行数仓项目实战(一)--什么是数据仓库
  • 独立游戏之路:Tap篇 -- Unity 集成 TapTap 广告详细步骤
  • MySQL触发器基本结构
  • React@16.x(32)useDebugValue
  • flutter 环境搭建(windows)(先装 jdk 建议1.8起步)
  • Spring IOC的优、缺点
  • 视频合成渲染服务解决方案,数字人+PPT+视频云剪辑
  • 搭建RocketMQ主从异步集群
  • vue前段处理时间格式,设置开始时间为00:00:00,设置结束时间为23:59:59
  • Langchain-chatchat: Langchain基本概念
  • SaaS案例分享:成功构建销售渠道的实战经验
  • homework 2024.06.17 math, UI
  • 【Linux硬盘数据读取】WIN10访问linux分区解决方案:ext2fsd
  • [原]深入对比数据科学工具箱:Python和R 非结构化数据的结构化
  • 【干货分享】SpringCloud微服务架构分布式组件如何共享session对象
  • 002-读书笔记-JavaScript高级程序设计 在HTML中使用JavaScript
  • 2019.2.20 c++ 知识梳理
  • Android路由框架AnnoRouter:使用Java接口来定义路由跳转
  • CSS相对定位
  • github指令
  • HashMap剖析之内部结构
  • Mac 鼠须管 Rime 输入法 安装五笔输入法 教程
  • nodejs调试方法
  • Python 反序列化安全问题(二)
  • 复杂数据处理
  • 聊聊hikari连接池的leakDetectionThreshold
  • 前端性能优化——回流与重绘
  • 使用docker-compose进行多节点部署
  • 原生JS动态加载JS、CSS文件及代码脚本
  • 7行Python代码的人脸识别
  • ​​​【收录 Hello 算法】9.4 小结
  • # Apache SeaTunnel 究竟是什么?
  • # Swust 12th acm 邀请赛# [ E ] 01 String [题解]
  • #我与Java虚拟机的故事#连载06:收获颇多的经典之作
  • $$$$GB2312-80区位编码表$$$$
  • (02)Unity使用在线AI大模型(调用Python)
  • (day18) leetcode 204.计数质数
  • (Oracle)SQL优化基础(三):看懂执行计划顺序
  • (poj1.3.2)1791(构造法模拟)
  • (solr系列:一)使用tomcat部署solr服务
  • (超详细)2-YOLOV5改进-添加SimAM注意力机制
  • (二)测试工具
  • (附程序)AD采集中的10种经典软件滤波程序优缺点分析
  • (紀錄)[ASP.NET MVC][jQuery]-2 純手工打造屬於自己的 jQuery GridView (含完整程式碼下載)...
  • (七)Activiti-modeler中文支持
  • (一)Spring Cloud 直击微服务作用、架构应用、hystrix降级
  • (一)SpringBoot3---尚硅谷总结
  • (转)用.Net的File控件上传文件的解决方案
  • (总结)Linux下的暴力密码在线破解工具Hydra详解
  • ***检测工具之RKHunter AIDE
  • . ./ bash dash source 这五种执行shell脚本方式 区别
  • .NET 动态调用WebService + WSE + UsernameToken
  • .NET/C# 在 64 位进程中读取 32 位进程重定向后的注册表