当前位置: 首页 > news >正文

第四篇:数据预处理(一) - 缺失值处理

前言

       在对数据有了大致的了解以后,就需要对获取到的数据进行一个预处理了。预处理的过程并不简单,大致来说分成缺失值处理,异常值处理,数据归约等等 (可根据实际情况对这些阶段进行科学的取舍)。

       下面将对这几个阶段一个个讲解。(本文中测试数据集nhanes2来自包lattice)

缺失值处理

       1. 首先要了解到数据集的缺失情况。

       下面两行命令分别获取到缺失的字段数和完整样本数:

       

       显然缺失字段个数为27,完整样本数为13。

       2. 使用mice包的md.pattern函数来获取具体的缺失情况:

       

       第一行第一列表示完整样本数(缺失/非缺失字段描述参考2-4列,1表示没缺失,0表示缺失);最后一列表示该种描述中缺失的字段数。
       第二行至第五行情况类似。
       最后一行中,2-4列表示对应的字段缺失数,最后一列表示总的字段缺失数。

       3. 缺失值的处理:

       a) 删除法

       

       b) 插补法(均值插补为例)

       

       上述代码首先将数据分为有缺失字段样本集和无缺失字段样本集,然后将有缺失字段的样本集的第四个字段进行均值补全。其他字段的补全同理。

小结

       R语言中提供的缺失值处理方案远不止于此。

       在何种条件下选择何种插补策略是个很有挑战的问题,本文不展开探讨。

相关文章:

  • HDU 2586 How far away ?(LCA模板 近期公共祖先啊)
  • Mocha BSM产品亮点——报告管理
  • Spring-data-jpa详解,全方位介绍。
  • 互联网DNS存在重大漏洞 黑客可能控制网络流量
  • 基于 POI 封装 ExcelUtil 精简的 Excel 导入导出
  • 发布Web服务器上的虚拟主机:ISA2006系列之十一
  • NFS部署及优化(二)
  • java枚举与.net中的枚举区别
  • 在Hibernate中配置多对多连接表
  • ionic2 自定义cordova插件开发以及使用 (Android)
  • 语录十八
  • 什么样的_BUG_会让你目瞪口呆?
  • C#编程利器之二:结构与枚举(Structure and enumeration)
  • 基础搜索算法的常见题型
  • Memcache安装详解
  • canvas实际项目操作,包含:线条,圆形,扇形,图片绘制,图片圆角遮罩,矩形,弧形文字...
  • CSS魔法堂:Absolute Positioning就这个样
  • Effective Java 笔记(一)
  • Facebook AccountKit 接入的坑点
  • Java深入 - 深入理解Java集合
  • leetcode386. Lexicographical Numbers
  • pdf文件如何在线转换为jpg图片
  • PHP 小技巧
  • Redis中的lru算法实现
  • RxJS 实现摩斯密码(Morse) 【内附脑图】
  • scala基础语法(二)
  • spring boot 整合mybatis 无法输出sql的问题
  • Vim 折腾记
  • 笨办法学C 练习34:动态数组
  • 基于 Ueditor 的现代化编辑器 Neditor 1.5.4 发布
  • 提升用户体验的利器——使用Vue-Occupy实现占位效果
  • 这几个编码小技巧将令你 PHP 代码更加简洁
  • 自制字幕遮挡器
  • media数据库操作,可以进行增删改查,实现回收站,隐私照片功能 SharedPreferences存储地址:
  • MPAndroidChart 教程:Y轴 YAxis
  • Prometheus VS InfluxDB
  • 测评:对于写作的人来说,Markdown是你最好的朋友 ...
  • ​软考-高级-系统架构设计师教程(清华第2版)【第20章 系统架构设计师论文写作要点(P717~728)-思维导图】​
  • ![CDATA[ ]] 是什么东东
  • #mysql 8.0 踩坑日记
  • #vue3 实现前端下载excel文件模板功能
  • #我与Java虚拟机的故事#连载12:一本书带我深入Java领域
  • (13)Hive调优——动态分区导致的小文件问题
  • (173)FPGA约束:单周期时序分析或默认时序分析
  • (9)目标检测_SSD的原理
  • (done) ROC曲线 和 AUC值 分别是什么?
  • (Mac上)使用Python进行matplotlib 画图时,中文显示不出来
  • (SpringBoot)第二章:Spring创建和使用
  • (补)B+树一些思想
  • (二十三)Flask之高频面试点
  • (附程序)AD采集中的10种经典软件滤波程序优缺点分析
  • (含react-draggable库以及相关BUG如何解决)固定在左上方某盒子内(如按钮)添加可拖动功能,使用react hook语法实现
  • (三)模仿学习-Action数据的模仿
  • (十七)Flask之大型项目目录结构示例【二扣蓝图】
  • (完整代码)R语言中利用SVM-RFE机器学习算法筛选关键因子