当前位置: 首页 > news >正文

【PCA提取主要特征通俗】

原始数据投影到主要成分上是PCA,提取主要特征:

一、原始数据提取主要成分(不是简单的选取某一个特征,而是投影主要成分上

步骤如下:

假设我们已经通过PCA计算出了特征向量(主要成分),我们可以将原始数据投影到这些主要成分上。以下是具体步骤:

  1. 标准化原始数据:确保数据的每个特征都有均值为0,标准差为1。

  2. 计算协方差矩阵:用标准化数据计算协方差矩阵。

  3. 计算特征值和特征向量:从协方差矩阵中提取特征值和特征向量。

  4. 选择主要成分:选择前几个特征值最大的特征向量作为主要成分。

  5. 投影数据:将原始数据投影到选定的主要成分上,得到新的特征集合。

二、实际例子

假设我们有以下原始数据矩阵 ( X ):

X = ( 2.5 2.4 3.5 2.0 3.0 0.5 0.7 1.0 1.5 2.0 2.2 2.9 2.0 2.1 1.9 1.9 2.2 2.5 2.6 3.1 3.1 3.0 3.1 3.1 3.0 2.3 2.7 2.8 2.9 3.2 2.0 1.6 2.1 1.8 2.5 1.0 1.1 1.2 1.4 2.6 1.5 1.6 1.5 1.6 2.7 1.1 0.9 1.3 1.1 2.8 ) X = \begin{pmatrix} 2.5 & 2.4 & 3.5 & 2.0 & 3.0 \\ 0.5 & 0.7 & 1.0 & 1.5 & 2.0 \\ 2.2 & 2.9 & 2.0 & 2.1 & 1.9 \\ 1.9 & 2.2 & 2.5 & 2.6 & 3.1 \\ 3.1 & 3.0 & 3.1 & 3.1 & 3.0 \\ 2.3 & 2.7 & 2.8 & 2.9 & 3.2 \\ 2.0 & 1.6 & 2.1 & 1.8 & 2.5 \\ 1.0 & 1.1 & 1.2 & 1.4 & 2.6 \\ 1.5 & 1.6 & 1.5 & 1.6 & 2.7 \\ 1.1 & 0.9 & 1.3 & 1.1 & 2.8 \\ \end{pmatrix} X= 2.50.52.21.93.12.32.01.01.51.12.40.72.92.23.02.71.61.11.60.93.51.02.02.53.12.82.11.21.51.32.01.52.12.63.12.91.81.41.61.13.02.01.93.13.03.22.52.62.72.8

标准化数据

标准化每个特征:

Z = X − μ σ Z = \frac{X - \mu}{\sigma} Z=σXμ

其中 (\mu) 是每个特征的均值,(\sigma) 是每个特征的标准差。

计算协方差矩阵

Σ = 1 n − 1 Z T Z \Sigma = \frac{1}{n-1} Z^T Z Σ=n11ZTZ

计算特征值和特征向量

通过协方差矩阵计算特征值和特征向量:

Σ v = λ v \Sigma \mathbf{v} = \lambda \mathbf{v} Σv=λv

假设我们得到了以下三个主要成分(特征向量):

v 1 = ( 0.5 0.5 0.5 0.5 0.5 ) , v 2 = ( − 0.5 − 0.5 0.5 0.5 0.5 ) , v 3 = ( 0.5 0.5 − 0.5 0.5 0.5 ) \mathbf{v_1} = \begin{pmatrix} 0.5 \\ 0.5 \\ 0.5 \\ 0.5 \\ 0.5 \\ \end{pmatrix}, \mathbf{v_2} = \begin{pmatrix} -0.5 \\ -0.5 \\ 0.5 \\ 0.5 \\ 0.5 \\ \end{pmatrix}, \mathbf{v_3} = \begin{pmatrix} 0.5 \\ 0.5 \\ -0.5 \\ 0.5 \\ 0.5 \\ \end{pmatrix} v1= 0.50.50.50.50.5 ,v2= 0.50.50.50.50.5 ,v3= 0.50.50.50.50.5

投影数据

将标准化后的原始数据矩阵 ( Z ) 投影到主要成分上:

Y = Z V Y = Z \mathbf{V} Y=ZV

其中 ( \mathbf{V} ) 是特征向量矩阵:

V = ( v 1 v 2 v 3 ) \mathbf{V} = \begin{pmatrix} \mathbf{v_1} & \mathbf{v_2} & \mathbf{v_3} \end{pmatrix} V=(v1v2v3)
投影后的新数据矩阵 ( Y ):

Y = Z ( 0.5 − 0.5 0.5 0.5 − 0.5 0.5 0.5 0.5 − 0.5 0.5 0.5 0.5 0.5 0.5 0.5 ) Y = Z \begin{pmatrix} 0.5 & -0.5 & 0.5 \\ 0.5 & -0.5 & 0.5 \\ 0.5 & 0.5 & -0.5 \\ 0.5 & 0.5 & 0.5 \\ 0.5 & 0.5 & 0.5 \\ \end{pmatrix} Y=Z 0.50.50.50.50.50.50.50.50.50.50.50.50.50.50.5

这样,我们就得到了新的特征集合(主成分)( Y )。

三、 示例代码说明

我们可以使用Python的NumPy和Pandas库来实现这一过程。下面是一个示例代码:

import numpy as np
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler# 原始数据
data = np.array([[2.5, 2.4, 3.5, 2.0, 3.0],[0.5, 0.7, 1.0, 1.5, 2.0],[2.2, 2.9, 2.0, 2.1, 1.9],[1.9, 2.2, 2.5, 2.6, 3.1],[3.1, 3.0, 3.1, 3.1, 3.0],[2.3, 2.7, 2.8, 2.9, 3.2],[2.0, 1.6, 2.1, 1.8, 2.5],[1.0, 1.1, 1.2, 1.4, 2.6],[1.5, 1.6, 1.5, 1.6, 2.7],[1.1, 0.9, 1.3, 1.1, 2.8],
])# 标准化数据
scaler = StandardScaler()
data_std = scaler.fit_transform(data)# PCA转换
pca = PCA(n_components=3)
principal_components = pca.fit_transform(data_std)# 打印结果
principal_df = pd.DataFrame(data=principal_components, columns=['V1', 'V2', 'V3'])
print(principal_df)

通过上述步骤,我们可以将原始数据投影到主要成分上,从而生成新的特征集合。这些新的特征保留了数据中的主要信息,同时简化了数据结构。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • Unity 功能 之 创建 【Unity Package】 Manager 自定义管理的包使用配置URL,使用 git URL加载的简单整理
  • Java SpringBoot 集成 MinIO 资料
  • RabbitMq架构原理剖析及应用
  • 【PostgreSQL教程】PostgreSQL UPDATE 语句
  • 数据库的基础的exists
  • java中字面量和golang中字面量区别
  • 掌握Java并发编程基础
  • 计算机网络(网络层)
  • 基于RFID技术的智能压缩机装配线优化方案
  • 2024年有哪些好用的文件加密软件?十款常用加密软件推荐
  • Docker 环境下使用 Traefik v3 和 MinIO 快速搭建私有化对象存储服务
  • Ubuntu 22.04 Docker安装笔记
  • python3 pyside6图形库学习笔记及实践(四)
  • 社交巨头与去中心化:解析Facebook在区块链的角色
  • 记录|LabVIEW从0开始【09~10】
  • [笔记] php常见简单功能及函数
  • 2017 前端面试准备 - 收藏集 - 掘金
  • Android单元测试 - 几个重要问题
  • Angular 2 DI - IoC DI - 1
  • css系列之关于字体的事
  • docker容器内的网络抓包
  • httpie使用详解
  • iOS 系统授权开发
  • java架构面试锦集:开源框架+并发+数据结构+大企必备面试题
  • SpiderData 2019年2月23日 DApp数据排行榜
  • storm drpc实例
  • Traffic-Sign Detection and Classification in the Wild 论文笔记
  • vue 配置sass、scss全局变量
  • Vue.js-Day01
  • vue的全局变量和全局拦截请求器
  • 第十八天-企业应用架构模式-基本模式
  • 给第三方使用接口的 URL 签名实现
  • 技术发展面试
  • 简单数学运算程序(不定期更新)
  • 解析 Webpack中import、require、按需加载的执行过程
  • 每天10道Java面试题,跟我走,offer有!
  • 前嗅ForeSpider采集配置界面介绍
  • 使用 QuickBI 搭建酷炫可视化分析
  • 使用iElevator.js模拟segmentfault的文章标题导航
  • 推荐一个React的管理后台框架
  • 深度学习之轻量级神经网络在TWS蓝牙音频处理器上的部署
  • HanLP分词命名实体提取详解
  • Spark2.4.0源码分析之WorldCount 默认shuffling并行度为200(九) ...
  • 阿里云ACE认证学习知识点梳理
  • ​LeetCode解法汇总2808. 使循环数组所有元素相等的最少秒数
  • ​ssh免密码登录设置及问题总结
  • #!/usr/bin/python与#!/usr/bin/env python的区别
  • #Datawhale X 李宏毅苹果书 AI夏令营#3.13.2局部极小值与鞍点批量和动量
  • #调用传感器数据_Flink使用函数之监控传感器温度上升提醒
  • (03)光刻——半导体电路的绘制
  • (13)Hive调优——动态分区导致的小文件问题
  • (17)Hive ——MR任务的map与reduce个数由什么决定?
  • (26)4.7 字符函数和字符串函数
  • (php伪随机数生成)[GWCTF 2019]枯燥的抽奖
  • (附源码)springboot助农电商系统 毕业设计 081919