当前位置: 首页 > news >正文

excel找到对应数据的列指标_python数据分析——医院销售数据实战案例

一、numpy,pandas基础知识

46218fef159dab2a1e7b4df4676ed3b1.png

cdb2f40b913c44918a8ac564ab74678f.png

27c708cf16e6d9cac54b3bdcf78278b8.png

01368a8d4285d1b68fbdafc086aeeb93.png

17781222aded65c711b718a62808a7dc.png

3824ac7bc392d757b1a1a9125564809b.png

40fc6804c66959aad3a8f070a99e96d7.png

43c25c0c4f966b490822b9f13da5d7ea.png

b34d9767975e624d505013881b06b96e.png

cefe03c6944e136cd64d3fe27395414a.png

387bf604bc0417a982bcf0dcb1ebc909.png

75615e3d02d94549bc6de824ec50e15e.png

816e0d0fb6a69fbad1576bdfe3832b3c.png

44c14e24cf171dd0636c1eb3699faf17.png

二、医院销售数据实战案例分析

数据分析步骤:

1、提出问题

2、理解数据

3、数据清洗

4、构建模型

5、数据可视化

1、提出问题

要从销售数据中获得1)月均消费次数 2)月均消费金额 3)客单价 4)消费趋势

1)月均消费次数=总消费次数/月份数

2)月均消费金额=总消费金额/月份数

3)客单价=总消费金额/消费人数

4)消费趋势,画图:折线图

2、理解数据

先导入数据

先导入数据。路径中最好不要有中文或者特殊符号,不然路径会提示错误找不到。最好将文件放到一个简单的英文路径下。使用pandas的read_excel函数读取excel文件;参数sheet_name:数据在Excel的哪个sheet里面,这里就写该sheet在Excel的名称;参数dtype=str 统一先按照字符串读入,之后再转换。

88d3b9bde29324856ef5ccedce8e888f.png

cec439c20b3ccb5fb21af26699e2636c.png

499cae68bc18432b48f2474168c4d7ac.png

3、数据清洗

数据清洗步骤:

1)选择子集

2)列名重命名

3)缺失数据处理

4)数据类型转换

5)数据排序

6)异常值处理

1)选择子集:(本案例不需要选择子集),使用切片查询

776f58efec4c3012e6d0df5667d80c0b.png

2)列名重命名:使用rename。先构建一个字典,旧列名和新列名的对应关系。inplace=False,数据框本身不会变,而会创建一个改动后新的数据框,默认的inplace是False。inplace=True,数据框本身会改动。

9446c02edff95a9994dd8eb3ca92dfe1.png

3)缺失数据处理

python缺失值有3种:

1)Python内置的None值

2)在pandas中,将缺失值表示为NA,表示不可用not available。

3)对于数值数据,pandas使用浮点值NaN(Not a Number)表示缺失数据。

后面出来数据,如果遇到错误:说float错误,那就是有缺失值,需要处理掉。

所以,缺失值有3种:None,NA,NaN

#删除列(销售时间,社保卡号)中为空的行——dropna。#how='any' 在给定的任何一列中有缺失值就删除。

a9336bcfcd73e64c458fa27c26930bca.png

4)数据类型转换

字符串转换为数值(浮点型),用.astype()

95c092e936c6594813062d35f6096c77.png

字符串转换为日期数据类型

adb5a3baece6f53c7067a5bf9c6fdd37.png

将字符串转化为日期格式

ab2d0fb511ac80df51c456d5e0ee09a4.png

5)数据排序——sort values

270109b3e94b420ea8fad3fe8f90f241.png

f42e985831d54e9af9209bc928af1aa2.png

6.异常值处理

f8dd3fe84a833e39e54842024036bce7.png

4.构建模型

业务指标1:月均消费次数=总消费次数 / 月份数

ba01d73d8cf954224c80c8da6e688531.png

45f6ec6f5fe9a2e68efbfec6e4e1fa42.png

业务指标2:月均消费金额=总消费金额/月份数

8bceee3545848754a40615560a31cdc9.png

业务指标3:客单价=总消费金额/消费人数

5cde3cb78e1f3d950fbfcf96166b63a1.png

5.结论

月均消费次数=890

月均消费金额=60802.022

客单价= 56.91

整理常用公式

理解数据常用公式:.head() .tail() .shape .dtypes .columns .info() .describe() .values_counts() --查看Series对象的唯一值和计数值

清洗数据常用公式:

(1)删除列、行:先创建一个list,把不要的列放进去,再调用.drop()方法,参数axis1时代表列,为0时代表行,参数inplace=True表示不创建新的对象,直接对原始对象进行修改。

03de48170a69bd39215c267f45c41f56.png

(2)重新命名列:用.rename()方法进行修改,先创建一个字典,把要修改的列名定义好,然后调用rename()方法。

e5f01f29f23d2e40405242df82dfddc3.png

(3)重新设置索引:数据默认的索引是从0开始的有序整数,但如果想把某一列设置为新的索引,可以用.setindex()方法实现。如果在排序的时候索引序号乱了,可以使用.reset_index重新排序。

d5d510fe4e78f4f4583f0a8956c3207c.png

(4)用字符串操作规范列:str.lower() ——小写 str.upper() ——大写 str.capitalize()——将首字母转化为大写 str.replace()——代替 str.strip()——去除字符串中的头尾空格、以及n t str.split()——分割 str.get()——选取列表中某个位置的值 str.contains()——判断是否存在某个字符,返回的是布尔值 str.find()——检测字符串中是否包含子字符串str

(5)删除重复数据:drop_duplicates()

(6)填充缺失值:fillna

(7)删除空值:drop_na

(8)排序:sort_values

(9)转换数据类型:astype()

相关文章:

  • 二维数组元素的地址
  • 大话2烧法助手_大话西游2说出你自己的服务器名称,看看有没有一起玩耍的小伙伴...
  • 运行项目时报Server Tomcat v8.0 Server at localhost failed to start.
  • web安全
  • python 元组_python学习04-2:元组
  • python-day27--hashlib模块-摘要算法
  • 简述python执行原理_Python解释执行原理分析
  • 关于javascript 的reduce方法
  • python合法标识符_python合法标识符要求是什么
  • 不会英语学python_不会英语能不能学编程
  • @RequestParam @RequestBody @PathVariable 等参数绑定注解详解
  • 不同的电脑打印预览不同怎么解决_华为笔记本电脑怎么样?Matebook 14与Matebook 13的有哪些不同...
  • python 相对路径导入_从Python中的相对路径导入
  • css揭秘pdf
  • python手机编程输入法_用Python写一个拼音输入法
  • 【Leetcode】104. 二叉树的最大深度
  • axios请求、和返回数据拦截,统一请求报错提示_012
  • js学习笔记
  • js作用域和this的理解
  • oldjun 检测网站的经验
  • Python中eval与exec的使用及区别
  • Sass 快速入门教程
  • Spark学习笔记之相关记录
  • 浅析微信支付:申请退款、退款回调接口、查询退款
  • 收藏好这篇,别再只说“数据劫持”了
  • 源码安装memcached和php memcache扩展
  • Redis4.x新特性 -- 萌萌的MEMORY DOCTOR
  • #QT(一种朴素的计算器实现方法)
  • (13)Latex:基于ΤΕΧ的自动排版系统——写论文必备
  • (C语言)二分查找 超详细
  • (C语言)逆序输出字符串
  • (zhuan) 一些RL的文献(及笔记)
  • (笔记)Kotlin——Android封装ViewBinding之二 优化
  • (层次遍历)104. 二叉树的最大深度
  • (附源码)ssm高校志愿者服务系统 毕业设计 011648
  • (免费领源码)python#django#mysql校园校园宿舍管理系统84831-计算机毕业设计项目选题推荐
  • (收藏)Git和Repo扫盲——如何取得Android源代码
  • (四)鸿鹄云架构一服务注册中心
  • (一)80c52学习之旅-起始篇
  • (转)C#调用WebService 基础
  • (转)自己动手搭建Nginx+memcache+xdebug+php运行环境绿色版 For windows版
  • (转载)深入super,看Python如何解决钻石继承难题
  • (自适应手机端)响应式新闻博客知识类pbootcms网站模板 自媒体运营博客网站源码下载
  • ****Linux下Mysql的安装和配置
  • .bat批处理(八):各种形式的变量%0、%i、%%i、var、%var%、!var!的含义和区别
  • .Net 高效开发之不可错过的实用工具
  • .NET 设计模式—适配器模式(Adapter Pattern)
  • .NET/C# 在代码中测量代码执行耗时的建议(比较系统性能计数器和系统时间)...
  • ??javascript里的变量问题
  • @SuppressLint(NewApi)和@TargetApi()的区别
  • [C#]C#学习笔记-CIL和动态程序集
  • [C]编译和预处理详解
  • [Deep Learning] 神经网络基础
  • [HDU3710]Battle over Cities
  • [html] 动态炫彩渐变背景