⚡ 编程实验室🏗️ HTML🎨 CSS⚡ JavaScript🐍 Python🗄️ SQL☕ Java⚛️ React💚 Vue🟢 Node.js⚙️ C语言🐘 PHP🐹 Go🔷 TypeScript🐬 MySQL🔧 C++🎯 C#🦀 Rust🅱️ Bootstrap💡 jQuery🎸 Django🍃 MongoDB👗 Sass🎪 Kotlin📊 R语言📋 XML📊 Excel🐘 PostgreSQL🐳 Docker🅰️ Angular🎮 游戏🏠 网站首页

R数据清洗实战

学习使用dplyr和tidyr包进行缺失值处理、重复值删除、列类型转换与字符串清洗 · 难度:入门 · +15XP

数据清洗:为分析扫清障碍

数据清洗是数据分析的第一步,也是最重要的一步。现实中原始数据常有缺失值、重复行、错误格式等问题,R的dplyrtidyr包提供了一整套优雅的清洗工具。

1. 加载包与查看数据

library(dplyr)
library(tidyr)
# 使用内置iris数据集
head(iris)

2. 处理缺失值

使用is.na()检测缺失,drop_na()删除含缺失的行,或replace_na()填充。

df <- iris
df[1,1] <- NA  # 人为制造缺失
df_clean <- df %>% drop_na()
head(df_clean)

3. 删除重复行

df_clean <- df_clean %>% distinct()

4. 列类型转换

df_clean <- df_clean %>%
  mutate(Species = as.factor(Species))

5. 字符串清洗(使用stringr)

library(stringr)
df_clean$Species <- str_trim(df_clean$Species)  # 去除空格

数据清洗常用操作总结:

函数功能
drop_na()删除含缺失值的行
distinct()删除重复行
mutate()修改/新增列
str_trim()去除字符串首尾空格

练习提示:在右侧编辑器中尝试对airquality数据集清洗,删除所有含NA的行。

Ctrl+Enter
🚀 升级VIP
解锁全部课程+AI助手

🏆 学习排行

加载中...

📊 统计

📖 71 篇
0 完成
🔥 0