Power Query 数据清洗入门
学习使用 Power Query 快速清洗和转换杂乱数据。 · 难度:入门 · +15XP
什么是 Power Query?
Power Query 是 Excel 中的一款强大数据连接与转换工具,它可以帮助你从各种数据源导入数据,并通过图形界面或 M 语言进行清洗、合并和重塑。本教程将带你完成一次典型的清洗流程。
核心概念
- 查询编辑器:Power Query 的主要工作界面。
- 步骤:每一次操作(如删除列、更改类型)都会记录为一个步骤,可随时修改或删除。
- M 语言:Power Query 背后的公式语言,用于高级数据转换。
实战:清洗销售数据
假设你有一个包含“产品”、“数量”、“金额”和“日期”的表格,但其中有很多空行、错误值和多余空格。
| 产品 | 数量 | 金额 | 日期 |
|---|---|---|---|
| 苹果 | 10 | 20 | 2024-01-01 |
| 香蕉 | 15 | 2024-01-02 | |
| 橙子 | 5 | abc | 2024-01-03 |
操作步骤
- 选中数据区域,点击“数据”选项卡 > “从表格/区域”。
- 在查询编辑器中,右键“产品”列 > “转换” > “修整”(移除两端空格)。
- 选择“数量”列,点击“主页” > “删除行” > “删除空行”。
- 选择“金额”列,点击“主页” > “替换值” > 将“abc”替换为“0”。
- 将“日期”列的数据类型改为“日期”。
- 点击“关闭并上载”将清洗后的数据放回工作表。
练习提示
尝试对上述表格执行以下操作:
1. 筛选出“数量”大于 5 的行。
2. 添加一个自定义列,计算“金额”除以“数量”得到单价(注意处理除以零错误)。
// M 语言示例:添加自定义列时使用的公式
let
Source = Excel.CurrentWorkbook(){[Name="表1"]}[Content],
#"Added Custom" = Table.AddColumn(Source, "单价", each if [数量] > 0 then [金额] / [数量] else 0)
in
#"Added Custom"