【PCA提取主要特征通俗】
原始数据投影到主要成分上是PCA,提取主要特征:
一、原始数据提取主要成分(不是简单的选取某一个特征,而是投影主要成分上
)
步骤如下:
假设我们已经通过PCA计算出了特征向量(主要成分),我们可以将原始数据投影到这些主要成分上。以下是具体步骤:
-
标准化原始数据:确保数据的每个特征都有均值为0,标准差为1。
-
计算协方差矩阵:用标准化数据计算协方差矩阵。
-
计算特征值和特征向量:从协方差矩阵中提取特征值和特征向量。
-
选择主要成分:选择前几个特征值最大的特征向量作为主要成分。
-
投影数据:将原始数据投影到选定的主要成分上,得到新的特征集合。
二、实际例子
假设我们有以下原始数据矩阵 ( X ):
X = ( 2.5 2.4 3.5 2.0 3.0 0.5 0.7 1.0 1.5 2.0 2.2 2.9 2.0 2.1 1.9 1.9 2.2 2.5 2.6 3.1 3.1 3.0 3.1 3.1 3.0 2.3 2.7 2.8 2.9 3.2 2.0 1.6 2.1 1.8 2.5 1.0 1.1 1.2 1.4 2.6 1.5 1.6 1.5 1.6 2.7 1.1 0.9 1.3 1.1 2.8 ) X = \begin{pmatrix} 2.5 & 2.4 & 3.5 & 2.0 & 3.0 \\ 0.5 & 0.7 & 1.0 & 1.5 & 2.0 \\ 2.2 & 2.9 & 2.0 & 2.1 & 1.9 \\ 1.9 & 2.2 & 2.5 & 2.6 & 3.1 \\ 3.1 & 3.0 & 3.1 & 3.1 & 3.0 \\ 2.3 & 2.7 & 2.8 & 2.9 & 3.2 \\ 2.0 & 1.6 & 2.1 & 1.8 & 2.5 \\ 1.0 & 1.1 & 1.2 & 1.4 & 2.6 \\ 1.5 & 1.6 & 1.5 & 1.6 & 2.7 \\ 1.1 & 0.9 & 1.3 & 1.1 & 2.8 \\ \end{pmatrix} X= 2.50.52.21.93.12.32.01.01.51.12.40.72.92.23.02.71.61.11.60.93.51.02.02.53.12.82.11.21.51.32.01.52.12.63.12.91.81.41.61.13.02.01.93.13.03.22.52.62.72.8
标准化数据
标准化每个特征:
Z = X − μ σ Z = \frac{X - \mu}{\sigma} Z=σX−μ
其中 (\mu) 是每个特征的均值,(\sigma) 是每个特征的标准差。
计算协方差矩阵
Σ = 1 n − 1 Z T Z \Sigma = \frac{1}{n-1} Z^T Z Σ=n−11ZTZ
计算特征值和特征向量
通过协方差矩阵计算特征值和特征向量:
Σ v = λ v \Sigma \mathbf{v} = \lambda \mathbf{v} Σv=λv
假设我们得到了以下三个主要成分(特征向量):
v 1 = ( 0.5 0.5 0.5 0.5 0.5 ) , v 2 = ( − 0.5 − 0.5 0.5 0.5 0.5 ) , v 3 = ( 0.5 0.5 − 0.5 0.5 0.5 ) \mathbf{v_1} = \begin{pmatrix} 0.5 \\ 0.5 \\ 0.5 \\ 0.5 \\ 0.5 \\ \end{pmatrix}, \mathbf{v_2} = \begin{pmatrix} -0.5 \\ -0.5 \\ 0.5 \\ 0.5 \\ 0.5 \\ \end{pmatrix}, \mathbf{v_3} = \begin{pmatrix} 0.5 \\ 0.5 \\ -0.5 \\ 0.5 \\ 0.5 \\ \end{pmatrix} v1= 0.50.50.50.50.5 ,v2= −0.5−0.50.50.50.5 ,v3= 0.50.5−0.50.50.5
投影数据
将标准化后的原始数据矩阵 ( Z ) 投影到主要成分上:
Y = Z V Y = Z \mathbf{V} Y=ZV
其中 ( \mathbf{V} ) 是特征向量矩阵:
V = ( v 1 v 2 v 3 ) \mathbf{V} = \begin{pmatrix} \mathbf{v_1} & \mathbf{v_2} & \mathbf{v_3} \end{pmatrix} V=(v1v2v3)
投影后的新数据矩阵 ( Y ):
Y = Z ( 0.5 − 0.5 0.5 0.5 − 0.5 0.5 0.5 0.5 − 0.5 0.5 0.5 0.5 0.5 0.5 0.5 ) Y = Z \begin{pmatrix} 0.5 & -0.5 & 0.5 \\ 0.5 & -0.5 & 0.5 \\ 0.5 & 0.5 & -0.5 \\ 0.5 & 0.5 & 0.5 \\ 0.5 & 0.5 & 0.5 \\ \end{pmatrix} Y=Z 0.50.50.50.50.5−0.5−0.50.50.50.50.50.5−0.50.50.5
这样,我们就得到了新的特征集合(主成分)( Y )。
三、 示例代码说明
我们可以使用Python的NumPy和Pandas库来实现这一过程。下面是一个示例代码:
import numpy as np
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler# 原始数据
data = np.array([[2.5, 2.4, 3.5, 2.0, 3.0],[0.5, 0.7, 1.0, 1.5, 2.0],[2.2, 2.9, 2.0, 2.1, 1.9],[1.9, 2.2, 2.5, 2.6, 3.1],[3.1, 3.0, 3.1, 3.1, 3.0],[2.3, 2.7, 2.8, 2.9, 3.2],[2.0, 1.6, 2.1, 1.8, 2.5],[1.0, 1.1, 1.2, 1.4, 2.6],[1.5, 1.6, 1.5, 1.6, 2.7],[1.1, 0.9, 1.3, 1.1, 2.8],
])# 标准化数据
scaler = StandardScaler()
data_std = scaler.fit_transform(data)# PCA转换
pca = PCA(n_components=3)
principal_components = pca.fit_transform(data_std)# 打印结果
principal_df = pd.DataFrame(data=principal_components, columns=['V1', 'V2', 'V3'])
print(principal_df)
通过上述步骤,我们可以将原始数据投影到主要成分上,从而生成新的特征集合。这些新的特征保留了数据中的主要信息,同时简化了数据结构。