当前位置：首页 > news >正文

数据挖掘与分析——数据预处理

news 来源：原创 2024/9/29 5:31:41

数据探索

波士顿房价数据集：卡内基梅隆大学收集，StatLib库，1978年，涵盖了麻省波士顿的506个不同郊区的房屋数据。

一共含有506条数据。每条数据14个字段，包含13个属性，和一个房价的平均值。

数据读取方法：

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import datasets
names =['CRIM','ZN','INDUS','CHAS','NOX','RM','AGE','DIS','RAD','TAX','PTRATIO','B','LSTAT','MEDV']
data=pd.read_csv('housing.csv', names=names, delim_whitespace=True)
data1=data.head(10)

请绘制散点图探索波士顿房价数据集中犯罪率（CRIM）和房价中位数（MEDV）之间的相关性。

# 创建散点图
sns.scatterplot(x=data1['CRIM'], y=data1['ZN'])
# 添加数据标签
for i in range(len(data1['CRIM'])):plt.text(data1['CRIM'][i], data1['ZN'][i], str(i), fontsize=8, color='black')
# 添加标题
plt.title('Correlation between CRIM and ZN')
# 显示图形
plt.show()

请使用波士顿房价数据集中房价中位数（MEDV）来绘制箱线图。

# 创建箱线图
sns.boxplot(data['CRIM'])
# 添加数据标签
# for i in range(len(data['CRIM'])):
#     plt.text(1, data['CRIM'][i], data['CRIM'][i], horizontalalignment='center', verticalalignment='bottom')
plt.title('Boxplot of CRIM')
plt.show()

请使用暗点图矩阵探索波士顿房价数据集。

sns.pairplot(data)
plt.show()print(data['CRIM'].corr(data['MEDV'],method='pearson'))
print(data['CRIM'].corr(data['MEDV'],method='spearman'))
print(data['CRIM'].corr(data['MEDV'],method='kendall'))

请分别使用皮尔逊（pearson）、斯皮尔曼（spearman）、肯德尔（kendall）相关系数对犯罪率（CRIM）和房价中位数（MEDV）之间的相关性进行度量。

print(data['CRIM'].corr(data['MEDV'],method='pearson'))
print(data['CRIM'].corr(data['MEDV'],method='spearman'))
print(data['CRIM'].corr(data['MEDV'],method='kendall'))

相关系数计算方法：

请绘制波士顿房价数据集中各变量之间相关系数的热力图。

需提前安装seaborn库：pip install seaborn


plt.figure(figsize=(12, 10))
sns.heatmap(data.corr(),annot=True,cmap='Blues_r')
plt.show()

数据预处理

x1	x2	x3	x4	x5	x6	x7	x8	x9	x10	x11	x12	x13	x14	y
1	22.08	11.46	2	4	4	1.585	0	0	0	1	2	100	1213	0
0	22.67	7	2	8	4	0.165	0	0	0	0	2	160	1	0
0	29.58	1.75	1	4	4	1.25	0	0	0	1	2	280	1	0
0	21.67		1	5	3	0	1	1	11	1	2	0	1	1
1	20.17	8.17	2	6	4	1.96	1	1	14	0	2	60	159	1
0		0.585	2	8	8		1	1	2	0	2		1	1
1	17.42	6.5	2	3	4	0.125	0	0	0	0	2	60	101	0
0	58.67	4.46	2	11	8	3.04	1	1	6	0	2	43	561	1
1	27.83	1	1	2	8	3	0	0	0	0	2	176	538	0
0	55.75	7.08	2	4	8	6.75	1	1	3	1	2	100	51	0
1	33.5	1.75	2	14	8		1	1	4	1	2	253	858	1
1	41.42	5	2	11	8	5	1	1	6	1	2	470	1	1
1	20.67	1.25	1	8	8	1.375	1	1	3	1	2	140		0
	34.92	5	2	14	8	7.5	1	1	6	1	2	0	1001	1
1		2.71	2	8	4	2.415	0	0		1	2	320	1	0
1	48.08	6.04	2	4	4		0	0	0	0	2	0	2691	1
1	29.58	4.5	2	9	4	7.5	1	1	2	1	2	330	1	1
0	18.92	9	2	6	4	0.75	1	1	2	0	2	88	592	1
1	20	1.25	1	4	4	0.125	0	0	0	0	2	140	5	0
0	22.42	5.665	2	11	4	2.585	1		7	0	2	129	3258	1
0	28.17	0.585	2	6	4	0.04		0	0	0	2		1005	0
0	19.17	0.585	1	6	4	0.585	1	0	0	1	2	160	1	0
1	41.17	1.335	2	2	4	0.165	0	0	0	0	2	168	1	0
1	41.58	1.75	2	4	4	0.21	1	0		0	2	160	1	0
	19.5		2	6	4	0.79	0	0	0	0	2	80	351	0
1	32.75	1.5	2	13	8	5.5	1	1	3	1	2	0	1	1
1	22.5	0.125	1	4	4	0.125	0	0	0	0	2	200	71	0
1	33.17	3.04	1	8	8	2.04	1	1	1	1	2	180	18028	1
0	30.67	12	2	8	4	2	1	1	1	0	2	220	20	1
1	23.08	2.5	2	8	4	1.085	1	1	11	1	2	60	2185	1
1	27	0.75	2	8	8		1	1	3	1	2	312	151	1
0	20.42	10.5	1	14	8	0	0	0	0	1	2	154	33	0
1	52.33	1.375	1	8	8	9.46	1	0		1	2	200	101	0
1	23.08	11.5	2	9	8	2.125	1	1	11	1	2	290	285	1
1	42.83	1.25	2	7	4	13.875	0	1	1	1	2	352	113	0
1	74.83	19	1	1	1	0.04	0	1	2	0	2	0	352	0
1	25		2	6	4	3	1	0	0	1		20	1	1
1	39.58	13.915	2	9	4	8.625	1	1	6	1	2	70	1	1
0	47.75	8	2	8	4	7.875	1	1	6	1	2	0	1261	1
0	47.42	3	2	14	4	13.875	1	1	2	1	2	519	1705	1
1	23.17	0	2	13	4	0.085	1	0		0	2	0	1	1
1	22.58	1.5	1	6	4	0.54	0	0	0	1	2	120	68	0
1	26.75	1.125	2	14	8	1.25	1	0	0	0	2	0	5299	1
1	63.33	0.54	2	8	4	0.585	1	1	3	1	2	180	1	0
1	23.75	0.415	1	8	4	0.04	0	1	2	0	2	128	7	0
0	20.75		2	11	4	0.71	1	1	2	1	2	49	1	1
0	24.5	1.75	1	8	4	0.165	0	0	0	0	2	132	1	0
1	16.17	0.04	2	8	4	0.04	0	0	0	0	2	0	1	1
0	29.5	2	1	10	8	2	0	0	0	0	2	256	18	0
0	52.83	15	2	8	4	5.5	1	1	14	0	2	0	2201	1
1	32.33	3.5	2	4	4	0.5	0	0	0	1	2	232	1	0
1	21.08	4.125	1	3	8	0.04	0	0	0		2	140	101	0
1	28.17	0.125	1	4	4	0.085	0	0	0	0	2	216	2101	0
1	19	1.75	1	8	4	2.335	0	0	0	1	2	112	7	0
1	27.58	3.25		11	8	5.085	0	1	2	1	2		2	0
1	27.83	1.5	2	9	4	2	1	1	11	1	2	434	36	1
1		6.5	2	6	5	3.5	1	1	1	0	2	0	501	1
0	37.33	2.5	2	3	8	0.21	0	0	0	0	2	260		0
1	42.5	4.915	1	9	4	3.165	1		0	1	2	52	1443	1
1	56.75	12.25	2	7	4	1.25	1	1	4	1	2	200	1	1
1	43.17	5	2	3	5	2.25	0	0	0	1	2	141	1	0
0	23.75	0.71	2	9	4	0.25	0	1	1	1	2	240	5	0
1	18.5	2	2	3	4	1.5	1	1	2	0	2	120	301	1
0	40.83	3.5	2	3	5	0.5	0	0	0	0	1	1160	1	0
0	24.5	0.5	2	11	8	1.5	1	0	0	0	2	280	825	1

读取“银行贷款审批数据.xlsx”表，自变量为x1-x14，决策变量为y（1-同意贷款，0-不同意贷款），自变量中有连续变量（x2,x3,x5,x6,x7,x10,x13,x14）和离散变量（x1,x4,x8,x9,x11,x12），请对连续变量中的缺失值用均值策略填充，对离散变量中的缺失值用最频繁值策略填充。

import pandas as pd# 读取Excel文件
df = pd.read_excel("银行贷款审批数据.xlsx")# 定义连续变量和离散变量列表
continuous_vars = ['x2', 'x3', 'x5', 'x6', 'x7', 'x10', 'x13', 'x14']
discrete_vars = ['x1', 'x4', 'x8', 'x9', 'x11', 'x12']# 使用均值填充连续变量的缺失值
for var in continuous_vars:df[var].fillna(df[var].mean(), inplace=True)# 使用最频繁值填充离散变量的缺失值
for var in discrete_vars:most_frequent_value = df[var].mode()[0]df[var].fillna(most_frequent_value, inplace=True)# 检查是否还有缺失值
missing_values = df.isnull().sum().sum()
if missing_values == 0:print("所有缺失值已填充。")
else:print("仍有缺失值未填充。")# 输出填充后的数据框的前几行
print(df.head())# 保存填充后的数据框到Excel文件
df.to_excel("填充后的银行贷款审批数据.xlsx", index=False)

x1	x2	x3	x4	x5	x6	x7	x8	x9	x10	x11	x12	x13	x14	y
1	22.08	11.46	2	4	4	1.585	0	0	0	1	2	100	1213	0
0	22.67	7	2	8	4	0.165	0	0	0	0	2	160	1	0
0	29.58	1.75	1	4	4	1.25	0	0	0	1	2	280	1	0
0	21.67	4.721637298	1	5	3	0	1	1	11	1	2	0	1	1
1	20.17	8.17	2	6	4	1.96	1	1	14	0	2	60	159	1
0	31.59438053	0.585	2	8	8	2.229175258	1	1	2	0	2	183.7609971	1	1
1	17.42	6.5	2	3	4	0.125	0	0	0	0	2	60	101	0
0	58.67	4.46	2	11	8	3.04	1	1	6	0	2	43	561	1
1	27.83	1	1	2	8	3	0	0	0	0	2	176	538	0
0	55.75	7.08	2	4	8	6.75	1	1	3	1	2	100	51	0
1	33.5	1.75	2	14	8	2.229175258	1	1	4	1	2	253	858	1
1	41.42	5	2	11	8	5	1	1	6	1	2	470	1	1
1	20.67	1.25	1	8	8	1.375	1	1	3	1	2	140	1023.653061	0
1	34.92	5	2	14	8	7.5	1	1	6	1	2	0	1001	1
1	31.59438053	2.71	2	8	4	2.415	0	0	2.424597365	1	2	320	1	0
1	48.08	6.04	2	4	4	2.229175258	0	0	0	0	2	0	2691	1
1	29.58	4.5	2	9	4	7.5	1	1	2	1	2	330	1	1
0	18.92	9	2	6	4	0.75	1	1	2	0	2	88	592	1
1	20	1.25	1	4	4	0.125	0	0	0	0	2	140	5	0
0	22.42	5.665	2	11	4	2.585	1	0	7	0	2	129	3258	1
0	28.17	0.585	2	6	4	0.04	1	0	0	0	2	183.7609971	1005	0
0	19.17	0.585	1	6	4	0.585	1	0	0	1	2	160	1	0
1	41.17	1.335	2	2	4	0.165	0	0	0	0	2	168	1	0
1	41.58	1.75	2	4	4	0.21	1	0	2.424597365	0	2	160	1	0
1	19.5	4.721637298	2	6	4	0.79	0	0	0	0	2	80	351	0
1	32.75	1.5	2	13	8	5.5	1	1	3	1	2	0	1	1
1	22.5	0.125	1	4	4	0.125	0	0	0	0	2	200	71	0
1	33.17	3.04	1	8	8	2.04	1	1	1	1	2	180	18028	1
0	30.67	12	2	8	4	2	1	1	1	0	2	220	20	1
1	23.08	2.5	2	8	4	1.085	1	1	11	1	2	60	2185	1
1	27	0.75	2	8	8	2.229175258	1	1	3	1	2	312	151	1
0	20.42	10.5	1	14	8	0	0	0	0	1	2	154	33	0
1	52.33	1.375	1	8	8	9.46	1	0	2.424597365	1	2	200	101	0
1	23.08	11.5	2	9	8	2.125	1	1	11	1	2	290	285	1
1	42.83	1.25	2	7	4	13.875	0	1	1	1	2	352	113	0
1	74.83	19	1	1	1	0.04	0	1	2	0	2	0	352	0
1	25	4.721637298	2	6	4	3	1	0	0	1	2	20	1	1
1	39.58	13.915	2	9	4	8.625	1	1	6	1	2	70	1	1
0	47.75	8	2	8	4	7.875	1	1	6	1	2	0	1261	1
0	47.42	3	2	14	4	13.875	1	1	2	1	2	519	1705	1
1	23.17	0	2	13	4	0.085	1	0	2.424597365	0	2	0	1	1
1	22.58	1.5	1	6	4	0.54	0	0	0	1	2	120	68	0
1	26.75	1.125	2	14	8	1.25	1	0	0	0	2	0	5299	1
1	63.33	0.54	2	8	4	0.585	1	1	3	1	2	180	1	0
1	23.75	0.415	1	8	4	0.04	0	1	2	0	2	128	7	0

请使用StandardScaler对波士顿房价数据集进行零-均值规范化。

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
print(X_scaled)
print(X_scaled.shape)

在上一问规范化后的数据基础上使用PCA对数据进行降维处理（降维后的特征数量为2）。

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
print(X_pca)
print(X_pca.shape)

IMU用于飞行坐姿校正

【中文】PDF文档切分\切片\拆分最优方案-数据预处理阶段，为后续导入RAG向量数据库和ES数据库实现双路召回

29.Netty进阶-黏包半包

C++类和对象总结

Oracle--存储结构

Springboot整合Kafka消息队列服务实例

thinkphp单独为某个接口设置缓存

预期和视角之外是什么？

01--MySQL数据库概述

vue3自动导入---组件库elements-ui,vuetify以及scss样式的自动导入

【C++11 之强类型枚举enum class/struct 基本结构及应用场景】了解在enum基础上增加了什么

水系统阻力计算

git log 过滤

Redis的实战常用一、验证码登录（解决session共享问题）（思路、意识）

数据仓库之离线数仓

3.7、@ResponseBody 和 @RestController

HTML5新特性总结

interface和setter，getter

iOS 颜色设置看我就够了

Magento 1.x 中文订单打印乱码

mysql中InnoDB引擎中页的概念

October CMS - 快速入门 9 Images And Galleries

socket.io+express实现聊天室的思考（三）

蓝海存储开关机注意事项总结

入职第二天：使用koa搭建node server是种怎样的体验

微信小程序填坑清单

温故知新之javascript面向对象

学习HTTP相关知识笔记

国内开源镜像站点

直播平台建设千万不要忘记流媒体服务器的存在 ...

#【QT 5 调试软件后，发布相关：软件生成exe文件 + 文件打包】

#13 yum、编译安装与sed命令的使用

#我与Java虚拟机的故事#连载10：如何在阿里、腾讯、百度、及字节跳动等公司面试中脱颖而出...

（附源码）springboot工单管理系统毕业设计 964158

(附源码)计算机毕业设计ssm基于Internet快递柜管理系统

（函数）颠倒字符串顺序（C语言）

(十六)视图变换正交投影透视投影

(转) SpringBoot:使用spring-boot-devtools进行热部署以及不生效的问题解决

(转)Linq学习笔记

(转)Mysql的优化设置

.NET Core 成都线下面基会拉开序幕

.NET Core、DNX、DNU、DNVM、MVC6学习资料

.Net+SQL Server企业应用性能优化笔记4——精确查找瓶颈

.net和jar包windows服务部署

.NET企业级应用架构设计系列之开场白

.NET文档生成工具ADB使用图文教程

.NET下的多线程编程—1-线程机制概述

@ 代码随想录算法训练营第8周（C语言）|Day53（动态规划）

@Documented注解的作用

[04]Web前端进阶—JS伪数组

[Android实例] 保持屏幕长亮的两种方法 [转]

[C][数据结构][树]详细讲解

[C++]: std::move

[FlareOn6]Overlong

[hdu 1711] Number Sequence [kmp]

相关文章：