当前位置: 首页 > news >正文

数据分析-前期数据处理

   今天找到一份关于医学体检的数据,在数据分析前期工作需要对数据做处理,在这里我们对原始数据做一些处理,将数据处理为可分析的标准数据。下一篇文章做数据的分析。数据想要获取的话可以到我的资源下载。

1 数据读取

import pandas as pd
data = pd.read_excel(r'E:\学习\项目\数据分析\体检数据\dataset.xls')
print(data.head())

在这里插入图片描述

2 定义数据处理函数

数据中有“是否吸烟”,“是否饮酒”,“性别”是否,需要将其转化为0 1二分类数据,便于后期分析。

# 替换特定的值
def replace_value1(row):if row['是否吸烟'] == '是': # ['是否吸烟'] == '是':return 1else:return 0
def replace_value2(row):if row['是否饮酒'] == '是':return 1else:return 0
def replace_value3(row):if row['性别'] == '男':return 1else:return 0

3 数据处理

数据处理,获取出生年月,从事工作时间,体检年份,年龄等

data['出生年月'] = data['身份证号'].str[4:8]  ## 添加出生年月
data['从事工作年份'] = data['开始从事某工作年份'].astype(str).str[0:4]
data['是否吸烟'] = data.apply(replace_value1, axis=1)
data['是否饮酒'] = data.apply(replace_value2, axis=1)
data['性别'] = data.apply(replace_value3, axis=1)
# for name,group in data.groupby('体检年份'):  ## 体检年份包含字符字段# print(name,group)
data['体检年份'] = data['体检年份'].astype(str).replace('2015年','2015')
data['从事工作时间'] = data['体检年份'].astype(float) - data['从事工作年份'].astype(float)
data['年龄'] = data['体检年份'].astype(float) - data['出生年月'].astype(float)

4 清洗后的数据

干净的数据可以直接用来分析

data_new = data.loc[:,['序号 ', '性别', '是否吸烟', '是否饮酒', '体检年份', '淋巴细胞计数','白细胞计数',  '血小板计数', '出生年月', '从事工作年份', '从事工作时间','年龄']]
print(data_new.head(20))

结果:在这里插入图片描述
下一篇文章会给予处理后的数据进行数据分析。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 雷达液位计助力造纸行业精准测量
  • Spring security 动态权限管理(基于数据库)
  • 使用Python生成多种不同类型的Excel图表
  • 计算机毕业设计 毕业季一站式旅游服务定制平台的设计与实现 Java实战项目 附源码+文档+视频讲解
  • Ribbon (WPF)
  • 研1日记11
  • 302状态如何进行重定向
  • 深度估计智能化的应用
  • Prometheus优化指南:如何提升系统性能
  • windows@共享网络共享打印机@局域网内远程调用打印机打印
  • Kafka客户端核心参数详解
  • ceph简介
  • vue开发遇到的js判断问题
  • 【我的Android进阶之旅】解决CardView四个圆角有白边的问题
  • ubuntu20.04 Qt6引用dcmtk库实现dicom文件读取和字符集转换
  • 【编码】-360实习笔试编程题(二)-2016.03.29
  • ECMAScript 6 学习之路 ( 四 ) String 字符串扩展
  • JAVA 学习IO流
  • LeetCode29.两数相除 JavaScript
  • MQ框架的比较
  • puppeteer stop redirect 的正确姿势及 net::ERR_FAILED 的解决
  • vue-cli3搭建项目
  • webgl (原生)基础入门指南【一】
  • yii2中session跨域名的问题
  • 初识 beanstalkd
  • 离散点最小(凸)包围边界查找
  • 聊聊flink的BlobWriter
  • 模型微调
  • 入职第二天:使用koa搭建node server是种怎样的体验
  • 深入体验bash on windows,在windows上搭建原生的linux开发环境,酷!
  • 使用iElevator.js模拟segmentfault的文章标题导航
  • 数据仓库的几种建模方法
  • 网页视频流m3u8/ts视频下载
  • 微信公众号开发小记——5.python微信红包
  • 我是如何设计 Upload 上传组件的
  • 职业生涯 一个六年开发经验的女程序员的心声。
  • ​​​​​​​STM32通过SPI硬件读写W25Q64
  • ###51单片机学习(2)-----如何通过C语言运用延时函数设计LED流水灯
  • #define、const、typedef的差别
  • #Linux(Source Insight安装及工程建立)
  • $().each和$.each的区别
  • $(selector).each()和$.each()的区别
  • $Django python中使用redis, django中使用(封装了),redis开启事务(管道)
  • (7)STL算法之交换赋值
  • (差分)胡桃爱原石
  • (附源码)c#+winform实现远程开机(广域网可用)
  • (附源码)ssm经济信息门户网站 毕业设计 141634
  • (力扣题库)跳跃游戏II(c++)
  • (亲测有效)解决windows11无法使用1500000波特率的问题
  • (算法)Game
  • (算法)硬币问题
  • (未解决)jmeter报错之“请在微信客户端打开链接”
  • (转)memcache、redis缓存
  • (转)平衡树
  • (轉貼) 資訊相關科系畢業的學生,未來會是什麼樣子?(Misc)