R降维PCA:主成分分析实战
理解PCA原理,使用R的prcomp函数进行数据降维与可视化。 · 难度:入门 · +15XP
主成分分析(PCA)简介
PCA是一种无监督降维技术,通过线性变换将原始高维数据投影到少数几个主成分上,保留最大方差。常用于数据可视化、特征提取和去噪。
1. 数据准备与标准化
PCA对变量尺度敏感,通常需要先标准化(均值为0,标准差为1)。
data(iris)
iris_std <- scale(iris[,1:4]) # 仅对数值列标准化2. 执行PCA
使用prcomp()函数。
pca_result <- prcomp(iris[,1:4], center = TRUE, scale. = TRUE)
summary(pca_result)3. 查看结果
主成分载荷(rotation)和得分(x)。
pca_result$rotation # 每个主成分的变量贡献
head(pca_result$x) # 各样本在主成分上的得分4. 可视化
library(ggplot2)
pca_df <- data.frame(pca_result$x, Species = iris$Species)
ggplot(pca_df, aes(x = PC1, y = PC2, color = Species)) + geom_point() + theme_minimal()| 参数 | 说明 |
|---|---|
| center | 是否中心化(默认TRUE) |
| scale. | 是否标准化(建议TRUE) |
| summary() | 查看方差解释比例 |
练习提示:对USArrests数据集执行PCA,并绘制前两个主成分的散点图,观察各州分布。