当前位置: 首页 > news >正文

数据预处理

方法:

l  数据清理(Clearing)

l  数据集成(Integration)

l  数据变换(Transformation)

l  数据归约/降维(Reduction)

l  数据增维(expand)

l  特征提取(generate)

 

(1)数据清理 -- 空缺值处理

       a)使用最可能的值填充空缺值,比如可以用最小二乘回归模型或判定树归纳等确定空缺值。这类方法依靠现有的数据信息来推测空缺值,使空缺值有更大的机会保持与其他属性之间的联系。

       b)用一个全局常量替换空缺值,使用属性的平均值填充空缺值或将所有元组按某些属性分类,然后用同一类中属性的平均值填充空缺值。如果空缺值很多,这些方法可能误导挖掘结果。

(2)数据清理 -- 噪声数据处理

       噪声是一个测量变量中的随机错误或偏差,包括错误的值或偏离期望的孤立点值。常用分箱、回归、计算机检查和人工检查结合、聚类等方法进行噪音处理。

               

(3)数据变化

       a)数据平滑 -- 分箱(按中值/平均值/边值)

       b)数据概念化

       c)规范化

                 

(4)数据归约(离散化)

       去掉可分性不强和冗余的特征。常用维归约、数据压缩、数值归约等方法实现。

       PCA降维,principal component analysis,即主成成分分析

   参考地址:http://www.cnblogs.com/sweetyu/p/5085798.html

 

转载于:https://www.cnblogs.com/sweetyu/p/5085268.html

相关文章:

  • 流控PANABIT 12在ESX里安装小结
  • Oracle的oci和thin的不同
  • 几个 vim 的块操作命令
  • Android进阶:打jar包获取assets中的资源 解决selector XML文件不能解...
  • 模拟实现兼容低版本IE浏览器的原生bind()函数功能
  • oracle中exp,imp(导入,导出)的使用详解
  • 【原创】erlang 模块之 rpc
  • Extreme交换机基本配置-账号软件升级密码配置
  • 使用mysqldump导入导出含BOLB数据的表
  • root logger默认的level是logging.WARNING
  • Prime Path
  • vim配色方案colorscheme设置
  • JAVA图形界面(GUI)之菜单
  • the difference among ios deivces
  • 随笔 2016-1-4
  • 【个人向】《HTTP图解》阅后小结
  • angular2开源库收集
  • Java 实战开发之spring、logback配置及chrome开发神器(六)
  • leetcode46 Permutation 排列组合
  • leetcode讲解--894. All Possible Full Binary Trees
  • vue和cordova项目整合打包,并实现vue调用android的相机的demo
  • yii2权限控制rbac之rule详细讲解
  • 阿里云Kubernetes容器服务上体验Knative
  • 不发不行!Netty集成文字图片聊天室外加TCP/IP软硬件通信
  • 开源中国专访:Chameleon原理首发,其它跨多端统一框架都是假的?
  • 坑!为什么View.startAnimation不起作用?
  • 浏览器缓存机制分析
  • 区块链将重新定义世界
  • 使用SAX解析XML
  • 移动端 h5开发相关内容总结(三)
  • 智能合约Solidity教程-事件和日志(一)
  • 阿里云服务器购买完整流程
  • ​​快速排序(四)——挖坑法,前后指针法与非递归
  • ​3ds Max插件CG MAGIC图形板块为您提升线条效率!
  • (42)STM32——LCD显示屏实验笔记
  • (pojstep1.3.1)1017(构造法模拟)
  • (附源码)springboot助农电商系统 毕业设计 081919
  • (附源码)ssm跨平台教学系统 毕业设计 280843
  • (附源码)基于SpringBoot和Vue的厨到家服务平台的设计与实现 毕业设计 063133
  • (含react-draggable库以及相关BUG如何解决)固定在左上方某盒子内(如按钮)添加可拖动功能,使用react hook语法实现
  • (紀錄)[ASP.NET MVC][jQuery]-2 純手工打造屬於自己的 jQuery GridView (含完整程式碼下載)...
  • (解决办法)ASP.NET导出Excel,打开时提示“您尝试打开文件'XXX.xls'的格式与文件扩展名指定文件不一致
  • (十七)devops持续集成开发——使用jenkins流水线pipeline方式发布一个微服务项目
  • (算法)前K大的和
  • (一)eclipse Dynamic web project 工程目录以及文件路径问题
  • (转)创业家杂志:UCWEB天使第一步
  • .cn根服务器被攻击之后
  • .net core webapi 大文件上传到wwwroot文件夹
  • .net core使用ef 6
  • .NET/C# 使用反射注册事件
  • .netcore 如何获取系统中所有session_ASP.NET Core如何解决分布式Session一致性问题
  • .NET教程 - 字符串 编码 正则表达式(String Encoding Regular Express)
  • .NET中winform传递参数至Url并获得返回值或文件
  • @Data注解的作用
  • @JoinTable会自动删除关联表的数据