当前位置: 首页 > news >正文

数据挖掘之数据准备——丢失数据

45ad929d1f3820a968f27288bed64a395746cbcd

对数据挖掘的实际应用而言,即使数据量很大,具有完整数据的案例子集可能相对较小。可用的样本和将来的事件都可能有丢失值。一些数据挖掘方法可以接受丢失值,并能进行圆满的处理,得到最终结论。一个明显的问题是,在应用数据挖掘方法之前的数据准备阶段,能否把这些丢失值补上。最简单的解决办法是减少数据集,去除包含丢失值的所有样本。若大型数据集是可用的,且只有一小部分样本包含丢失值,则这是可行的。


如果不去除丢失值的样本,如何找到他们的丢失值呢?


首先,数据挖掘者和领域内专家可手动检查缺失值样本,再根据姜堰加入一个合理的,可能的,预期的值。对丢失值较小的数据集合来说,这种方法简单明了。但是如果每个样本的值都不明显或似是而非,挖掘者就要手动生成一个值,从而把噪点引入数据集


第二种方法消除丢失值的一个更简单的解决方案,这种方法基于一种形式,常常用一些常量自动替换丢失值 如

1) 用一个全局常量替换所有的丢失值

2)用特征平均值替换丢失值

3)用给定种类的特征平均值替换丢失值

这些方法简单具有诱惑力,但是主要缺点是替代之并不准确。用常量替换丢失值或改变少数不同特征的值,数据就会有误差。替代值会均话带有丢失值的样本,给丢失值最多的类别生成一致的子集。如果所有特征的丢失值都用一个全局变量来替代,一个未知值可能会暗中形成一个未经客观证明的正因数


最后一种方法是,数据挖掘者可以生成一个预测模型,来预测每个丢失值。如果丢失值与其他已知特征高度有关,这样的处理就可以为特征生成最合适的值。


一般来讲,用简单的人工数据准备模式来替代丢失值是有风险的,常常有误导作用。最好对带有和不带有丢失值的特征生成多种数据挖掘解决方案,然后对他们进行分析和解释

相关文章:

  • 今天加入云溪社区啦
  • 框架中无效的列类型异常分析
  • 起床继续编程
  • Linux主流架构运维工作简单剖析
  • AndroidStudio打包apk,安装出现签名冲突--解决办法
  • 最大整数
  • mysql sum() 求和函数的用法
  • 新事物的代价 共享汽车所碰到的尴尬
  • Intellij IDEA 配置Subversion插件时效解决方法
  • 封装sdk——包装模式
  • vue-router
  • 第二百二十五节,jQuery EasyUI,PropertyGird(属性表格)组件
  • 5 -- Hibernate的基本用法 -- 要点
  • linux之SQL语句简明教程---SUBSTRING
  • 面向对象访问修饰符
  • @jsonView过滤属性
  • [LeetCode] Wiggle Sort
  • 3.7、@ResponseBody 和 @RestController
  • Electron入门介绍
  • EOS是什么
  • Javascript Math对象和Date对象常用方法详解
  • Java程序员幽默爆笑锦集
  • linux安装openssl、swoole等扩展的具体步骤
  • Linux后台研发超实用命令总结
  • niucms就是以城市为分割单位,在上面 小区/乡村/同城论坛+58+团购
  • react-native 安卓真机环境搭建
  • Service Worker
  • Synchronized 关键字使用、底层原理、JDK1.6 之后的底层优化以及 和ReenTrantLock 的对比...
  • vue2.0一起在懵逼的海洋里越陷越深(四)
  • vue-router 实现分析
  • 当SetTimeout遇到了字符串
  • 理解 C# 泛型接口中的协变与逆变(抗变)
  • 入门级的git使用指北
  • 树莓派 - 使用须知
  • 教程:使用iPhone相机和openCV来完成3D重建(第一部分) ...
  • ​520就是要宠粉,你的心头书我买单
  • #Js篇:单线程模式同步任务异步任务任务队列事件循环setTimeout() setInterval()
  • #多叉树深度遍历_结合深度学习的视频编码方法--帧内预测
  • (2.2w字)前端单元测试之Jest详解篇
  • (Mac上)使用Python进行matplotlib 画图时,中文显示不出来
  • (solr系列:一)使用tomcat部署solr服务
  • (ZT)薛涌:谈贫说富
  • (理论篇)httpmoudle和httphandler一览
  • (六)什么是Vite——热更新时vite、webpack做了什么
  • (转)清华学霸演讲稿:永远不要说你已经尽力了
  • .net core控制台应用程序初识
  • .NET(C#) Internals: as a developer, .net framework in my eyes
  • .project文件
  • :not(:first-child)和:not(:last-child)的用法
  • @Bean注解详解
  • @JsonFormat与@DateTimeFormat注解的使用
  • [04] Android逐帧动画(一)
  • [Android 13]Input系列--获取触摸窗口
  • [android]-如何在向服务器发送request时附加已保存的cookie数据
  • [BZOJ 4129]Haruna’s Breakfast(树上带修改莫队)