Power Query 数据清洗入门
学习如何使用 Power Query 从外部数据源导入并清洗杂乱数据。 · 难度:入门 · +15XP
什么是 Power Query?
Power Query 是 Excel 中的一款数据连接与转换工具,它可以帮助你从各种数据源(如文本文件、数据库、网页)导入数据,并执行清洗、合并、拆分等操作,而无需编写复杂的公式。所有操作都会记录为“步骤”,方便重复使用。
核心概念
- 查询: 一个从数据源获取数据并经过一系列转换的流程。
- 步骤: 每次操作(如删除列、更改类型)都会生成一个步骤,在“查询设置”窗格中可查看和调整顺序。
- M 语言: Power Query 底层的函数式语言,但大部分操作可通过界面完成。
实操示例:清洗销售数据
假设你有一个包含销售记录的 CSV 文件,其中存在空行、重复值和错误格式的日期。使用 Power Query 可以轻松处理:
- 点击“数据” > “从文本/CSV”导入文件。
- 在查询编辑器中,选择“删除行” > “删除空行”。
- 选择“日期”列,点击“数据类型”选择“日期”(错误值会变为 null)。
- 选择“产品”列,右键“删除重复项”。
- 点击“关闭并上载”将清洗后的数据加载到工作表。
重要提示
每次修改源数据后,只需右键查询 > “刷新”即可应用所有步骤,无需重复操作。Power Query 特别适合处理定期更新的报表数据。
| 操作 | 效果 |
|---|---|
| 删除空行 | 移除所有空白行 |
| 更改类型 | 确保日期、数字格式正确 |
| 删除重复项 | 保留唯一值 |
练习提示:尝试导入一个包含合并单元格的 Excel 文件,并使用“填充”功能(向下/向上)将其标准化。