R随机森林:集成学习实战
使用randomForest包构建随机森林模型,进行特征重要性评估与预测。 · 难度:入门 · +15XP
随机森林原理
随机森林由多棵决策树集成,通过Bootstrap采样和随机特征子集降低过拟合,具有高准确度和抗噪声能力。可用于分类和回归。
1. 安装与加载
library(randomForest)2. 构建随机森林分类模型
data(iris)
set.seed(123)
rf <- randomForest(Species ~ ., data = iris, ntree = 500, importance = TRUE)
print(rf)3. 特征重要性
importance(rf)
varImpPlot(rf)4. 预测与混淆矩阵
pred <- predict(rf, iris)
table(pred, iris$Species)| 参数 | 说明 |
|---|---|
| ntree | 树的数目(默认500) |
| importance | 是否计算特征重要性 |
| varImpPlot | 绘制重要性图 |
练习提示:使用mtcars数据集构建随机森林回归模型(预测mpg),并比较与单棵决策树的误差。