当前位置：首页 > news >正文

【PCA提取主要特征通俗】

news 来源：原创 2024/9/21 13:54:23

原始数据投影到主要成分上是PCA,提取主要特征：

一、原始数据提取主要成分（`不是简单的选取某一个特征，而是投影主要成分上`）

步骤如下:

假设我们已经通过PCA计算出了特征向量（主要成分），我们可以将原始数据投影到这些主要成分上。以下是具体步骤：

标准化原始数据：确保数据的每个特征都有均值为0，标准差为1。
计算协方差矩阵：用标准化数据计算协方差矩阵。
计算特征值和特征向量：从协方差矩阵中提取特征值和特征向量。
选择主要成分：选择前几个特征值最大的特征向量作为主要成分。
投影数据：将原始数据投影到选定的主要成分上，得到新的特征集合。

二、实际例子

假设我们有以下原始数据矩阵 ( X )：

$\begin{pmatrix} 2.5 & 2.4 & 3.5 & 2.0 & 3.0 \\ 0.5 & 0.7 & 1.0 & 1.5 & 2.0 \\ 2.2 & 2.9 & 2.0 & 2.1 & 1.9 \\ 1.9 & 2.2 & 2.5 & 2.6 & 3.1 \\ 3.1 & 3.0 & 3.1 & 3.1 & 3.0 \\ 2.3 & 2.7 & 2.8 & 2.9 & 3.2 \\ 2.0 & 1.6 & 2.1 & 1.8 & 2.5 \\ 1.0 & 1.1 & 1.2 & 1.4 & 2.6 \\ 1.5 & 1.6 & 1.5 & 1.6 & 2.7 \\ 1.1 & 0.9 & 1.3 & 1.1 & 2.8 \\ \end{pmatrix}$

标准化数据

标准化每个特征：

$\frac{X - \mu}{\sigma}$

其中 (\mu) 是每个特征的均值，(\sigma) 是每个特征的标准差。

计算协方差矩阵

$\Sigma = \frac{1}{n-1} Z^T Z$

计算特征值和特征向量

通过协方差矩阵计算特征值和特征向量：

$\Sigma \mathbf{v} = \lambda \mathbf{v}$

假设我们得到了以下三个主要成分（特征向量）：

$\mathbf{v_1} = \begin{pmatrix} 0.5 \\ 0.5 \\ 0.5 \\ 0.5 \\ 0.5 \\ \end{pmatrix}, \mathbf{v_2} = \begin{pmatrix} -0.5 \\ -0.5 \\ 0.5 \\ 0.5 \\ 0.5 \\ \end{pmatrix}, \mathbf{v_3} = \begin{pmatrix} 0.5 \\ 0.5 \\ -0.5 \\ 0.5 \\ 0.5 \\ \end{pmatrix}$

投影数据

将标准化后的原始数据矩阵 ( Z ) 投影到主要成分上：

$\mathbf{V}$

其中 ( \mathbf{V} ) 是特征向量矩阵：

$\mathbf{V} = \begin{pmatrix} \mathbf{v_1} & \mathbf{v_2} & \mathbf{v_3} \end{pmatrix}$
投影后的新数据矩阵 ( Y )：

$\begin{pmatrix} 0.5 & -0.5 & 0.5 \\ 0.5 & -0.5 & 0.5 \\ 0.5 & 0.5 & -0.5 \\ 0.5 & 0.5 & 0.5 \\ 0.5 & 0.5 & 0.5 \\ \end{pmatrix}$

这样，我们就得到了新的特征集合（主成分）( Y )。

三、示例代码说明

我们可以使用Python的NumPy和Pandas库来实现这一过程。下面是一个示例代码：

import numpy as np
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler# 原始数据
data = np.array([[2.5, 2.4, 3.5, 2.0, 3.0],[0.5, 0.7, 1.0, 1.5, 2.0],[2.2, 2.9, 2.0, 2.1, 1.9],[1.9, 2.2, 2.5, 2.6, 3.1],[3.1, 3.0, 3.1, 3.1, 3.0],[2.3, 2.7, 2.8, 2.9, 3.2],[2.0, 1.6, 2.1, 1.8, 2.5],[1.0, 1.1, 1.2, 1.4, 2.6],[1.5, 1.6, 1.5, 1.6, 2.7],[1.1, 0.9, 1.3, 1.1, 2.8],
])# 标准化数据
scaler = StandardScaler()
data_std = scaler.fit_transform(data)# PCA转换
pca = PCA(n_components=3)
principal_components = pca.fit_transform(data_std)# 打印结果
principal_df = pd.DataFrame(data=principal_components, columns=['V1', 'V2', 'V3'])
print(principal_df)