R数据清洗实战
学习使用dplyr和tidyr包进行缺失值处理、重复值删除、列类型转换与字符串清洗 · 难度:入门 · +15XP
数据清洗:为分析扫清障碍
数据清洗是数据分析的第一步,也是最重要的一步。现实中原始数据常有缺失值、重复行、错误格式等问题,R的dplyr和tidyr包提供了一整套优雅的清洗工具。
1. 加载包与查看数据
library(dplyr)
library(tidyr)
# 使用内置iris数据集
head(iris)2. 处理缺失值
使用is.na()检测缺失,drop_na()删除含缺失的行,或replace_na()填充。
df <- iris
df[1,1] <- NA # 人为制造缺失
df_clean <- df %>% drop_na()
head(df_clean)3. 删除重复行
df_clean <- df_clean %>% distinct()4. 列类型转换
df_clean <- df_clean %>%
mutate(Species = as.factor(Species))5. 字符串清洗(使用stringr)
library(stringr)
df_clean$Species <- str_trim(df_clean$Species) # 去除空格数据清洗常用操作总结:
| 函数 | 功能 |
|---|---|
| drop_na() | 删除含缺失值的行 |
| distinct() | 删除重复行 |
| mutate() | 修改/新增列 |
| str_trim() | 去除字符串首尾空格 |
练习提示:在右侧编辑器中尝试对airquality数据集清洗,删除所有含NA的行。