分享一个我的万能数据清洗Skill，专治各种脏数据！#trae技巧便利店

姜金雷 · 2026 年3 月 11 日 03:39

各位 Trae 的友友们好，

最近接手了一个老项目的数据迁移。源数据简直是灾难现场：日期格式五花八门有的带时区，有的纯字符串，手机号里混着横杠和空格，甚至还有那种因为编码问题产生的乱码字符。

刚开始我每次遇到新表，都得让 AI 帮我重写一遍清洗逻辑，Prompt 写得越来越长，还容易出错。后来我想，与其每次都重新“教”AI，不如直接把这套逻辑固化下来，变成一个专属 Skill。

于是我就搓了这个Skill。现在只要把脏数据丢进去，告诉它目标格式，它就能自动调用这个 Skill 搞定，效率直接起飞。

Skill 介绍：

背景：专门解决开发中那些“又臭又长”的数据预处理工作。
场景：

从旧系统导出的 CSV/Excel 数据清洗。
爬虫抓取的杂乱文本标准化。
用户导入数据的格式校验与修正。

具体使用方法：

不用写复杂的 Prompt 了，直接在对话框里这么玩：

唤起：输入 @data-cleaner-pro (或者在技能列表选)。
指令：直接丢给它一段数据或文件，然后说：“帮我把这些手机号统一成 11 位数字，日期转成 YYYY-MM-DD。”
执行：它会直接调用背后的 Python 脚本，返回清洗后的 JSON 或代码块。

Skill 编写思路或技巧：

写这个 Skill 的时候，我踩过几个坑，分享给大家，希望能帮到想自己写 Skill 的朋友：

别贪大求全：一开始我想让它既能洗数据又能画图，结果逻辑巨复杂，AI 经常调用失败。后来我把它拆解了，这个 Skill 只专注做“清洗”，画图交给另一个 Skill。单一职责原则在 Skill 编写里同样适用！
参数要“宽容”：用户在描述需求时往往不严谨。我在 skill.json 里把参数定义得模糊了一点（比如用 text_data 而不是严格的 csv_string），然后在 main.py 里做了大量的预判断和容错处理。让 Skill 去适应用户，别让用户来适应 Skill。
注释即文档：在 main.py 里，我尽量把每一步正则匹配的逻辑都写了中文注释。这样下次我自己维护，或者 Trae 在生成解释时，都能更准确。

效果展示：
以前处理一个 5000 行的脏数据表，我得跟 AI 来回拉扯十几轮，还要手动修修补补，耗时 20 分钟+。
现在？30 秒。直接输出干净的可导入数据。真香！

标准化打包

为了方便大家直接导入复用，我按官方建议的目录结构打了个包。你只需要解压放到你的 Skills 目录，重启一下 Trae 就能用了。

data-cleaner-pro/
├── skill.json      # 定义了什么情况下触发，参数有哪些
├── main.py         # 核心正则和清洗逻辑（基于 pandas 和 re）
└── README.md       # 简单的使用说明和示例

https://gitcode.com/yzjjlwhy/data-cleaner-pro

这个 Skill 目前只覆盖了我常用的几种清洗场景（手机号、身份证、日期、去重）。如果你有更变态的清洗需求，欢迎在评论区留言！

Trae 的魅力就在于此吧，希望大家都能建立起自己的技能军火库！

有问题随时滴滴我~

Nolan · 2026 年3 月 11 日 03:40

这个我保存了，我觉得我需要哈哈

耿家威PhpJavaGo用户17 · 2026 年3 月 23 日 15:04

数据迁移数据清洗收藏了想起了以前的日子

用户9475 · 2026 年3 月 23 日 15:09

老哥厉害

大模型善后工程师-K叔 · 2026 年3 月 24 日 05:52

这个 Skill 很实用，而且你分享的不只是“能做什么”，还把为什么这样拆、怎么避免把 Skill 做得过重这些经验也讲出来了，这部分很有参考价值。
我尤其认同你提到的两点：单一职责、参数宽容。很多 Skill 后面不好用，往往就是这两处没处理好。
如果后面你愿意继续更新，我觉得可以再补一个“典型输入脏数据 → 清洗后输出结果”的前后对照，会让这篇更有说服力。

大模型善后工程师-K叔 · 2026 年3 月 24 日 05:54

这个 Skill 很实用，而且你分享的不只是“能做什么”，还把为什么这样拆、怎么避免把 Skill 做得过重这些经验也讲出来了，这部分很有参考价值。
我尤其认同你提到的两点：单一职责、参数宽容。很多 Skill 后面不好用，往往就是这两处没处理好。
如果后面你愿意继续更新，我觉得可以再补一个“典型输入脏数据 → 清洗后输出结果”的前后对照，会让这篇更有说服力。