R数据清洗实战

学习使用dplyr和tidyr包进行缺失值处理、重复值删除、列类型转换与字符串清洗 · 难度：入门 · +15XP

数据清洗：为分析扫清障碍

数据清洗是数据分析的第一步，也是最重要的一步。现实中原始数据常有缺失值、重复行、错误格式等问题，R的dplyr和tidyr包提供了一整套优雅的清洗工具。

library(dplyr)
library(tidyr)
# 使用内置iris数据集
head(iris)

使用is.na()检测缺失，drop_na()删除含缺失的行，或replace_na()填充。

df <- iris
df[1,1] <- NA  # 人为制造缺失
df_clean <- df %>% drop_na()
head(df_clean)

df_clean <- df_clean %>% distinct()

df_clean <- df_clean %>%
  mutate(Species = as.factor(Species))

library(stringr)
df_clean$Species <- str_trim(df_clean$Species)  # 去除空格

数据清洗常用操作总结：

练习提示：在右侧编辑器中尝试对airquality数据集清洗，删除所有含NA的行。