excel找到对应数据的列指标_python数据分析——医院销售数据实战案例
一、numpy,pandas基础知识
二、医院销售数据实战案例分析
数据分析步骤:
1、提出问题
2、理解数据
3、数据清洗
4、构建模型
5、数据可视化
1、提出问题
要从销售数据中获得1)月均消费次数 2)月均消费金额 3)客单价 4)消费趋势
1)月均消费次数=总消费次数/月份数
2)月均消费金额=总消费金额/月份数
3)客单价=总消费金额/消费人数
4)消费趋势,画图:折线图
2、理解数据
先导入数据
先导入数据。路径中最好不要有中文或者特殊符号,不然路径会提示错误找不到。最好将文件放到一个简单的英文路径下。使用pandas的read_excel函数读取excel文件;参数sheet_name:数据在Excel的哪个sheet里面,这里就写该sheet在Excel的名称;参数dtype=str 统一先按照字符串读入,之后再转换。
3、数据清洗
数据清洗步骤:
1)选择子集
2)列名重命名
3)缺失数据处理
4)数据类型转换
5)数据排序
6)异常值处理
1)选择子集:(本案例不需要选择子集),使用切片查询
2)列名重命名:使用rename。先构建一个字典,旧列名和新列名的对应关系。inplace=False,数据框本身不会变,而会创建一个改动后新的数据框,默认的inplace是False。inplace=True,数据框本身会改动。
3)缺失数据处理
python缺失值有3种:
1)Python内置的None值
2)在pandas中,将缺失值表示为NA,表示不可用not available。
3)对于数值数据,pandas使用浮点值NaN(Not a Number)表示缺失数据。
后面出来数据,如果遇到错误:说float错误,那就是有缺失值,需要处理掉。
所以,缺失值有3种:None,NA,NaN
#删除列(销售时间,社保卡号)中为空的行——dropna。#how='any' 在给定的任何一列中有缺失值就删除。
4)数据类型转换
字符串转换为数值(浮点型),用.astype()
字符串转换为日期数据类型
将字符串转化为日期格式
5)数据排序——sort values
6.异常值处理
4.构建模型
业务指标1:月均消费次数=总消费次数 / 月份数
业务指标2:月均消费金额=总消费金额/月份数
业务指标3:客单价=总消费金额/消费人数
5.结论
月均消费次数=890
月均消费金额=60802.022
客单价= 56.91
整理常用公式
理解数据常用公式:.head() .tail() .shape .dtypes .columns .info() .describe() .values_counts() --查看Series对象的唯一值和计数值
清洗数据常用公式:
(1)删除列、行:先创建一个list,把不要的列放进去,再调用.drop()方法,参数axis为1时代表列,为0时代表行,参数inplace=True表示不创建新的对象,直接对原始对象进行修改。
(2)重新命名列:用.rename()方法进行修改,先创建一个字典,把要修改的列名定义好,然后调用rename()方法。
(3)重新设置索引:数据默认的索引是从0开始的有序整数,但如果想把某一列设置为新的索引,可以用.setindex()方法实现。如果在排序的时候索引序号乱了,可以使用.reset_index重新排序。
(4)用字符串操作规范列:str.lower() ——小写 str.upper() ——大写 str.capitalize()——将首字母转化为大写 str.replace()——代替 str.strip()——去除字符串中的头尾空格、以及n t str.split()——分割 str.get()——选取列表中某个位置的值 str.contains()——判断是否存在某个字符,返回的是布尔值 str.find()——检测字符串中是否包含子字符串str
(5)删除重复数据:drop_duplicates()
(6)填充缺失值:fillna
(7)删除空值:drop_na
(8)排序:sort_values
(9)转换数据类型:astype()