各位 Trae 的友友们好 ,
最近接手了一个老项目的数据迁移 。源数据简直是灾难现场:日期格式五花八门有的带时区,有的纯字符串,手机号里混着横杠和空格,甚至还有那种因为编码问题产生的乱码字符。
刚开始我每次遇到新表,都得让 AI 帮我重写一遍清洗逻辑,Prompt 写得越来越长,还容易出错。后来我想,与其每次都重新“教”AI,不如直接把这套逻辑固化下来,变成一个专属 Skill。
于是我就搓了这个Skill。现在只要把脏数据丢进去,告诉它目标格式,它就能自动调用这个 Skill 搞定,效率直接起飞 。
Skill 介绍:
背景:专门解决开发中那些“又臭又长”的数据预处理工作。
场景:
-
从旧系统导出的 CSV/Excel 数据清洗。
-
爬虫抓取的杂乱文本标准化。
-
用户导入数据的格式校验与修正。
具体使用方法:
不用写复杂的 Prompt 了,直接在对话框里这么玩:
-
唤起:输入
@data-cleaner-pro(或者在技能列表选)。 -
指令:直接丢给它一段数据或文件,然后说:“帮我把这些手机号统一成 11 位数字,日期转成 YYYY-MM-DD。”
-
执行:它会直接调用背后的 Python 脚本,返回清洗后的 JSON 或代码块。
Skill 编写思路或技巧:
写这个 Skill 的时候,我踩过几个坑,分享给大家,希望能帮到想自己写 Skill 的朋友:
-
别贪大求全:一开始我想让它既能洗数据又能画图,结果逻辑巨复杂,AI 经常调用失败。后来我把它拆解了,这个 Skill 只专注做“清洗”,画图交给另一个 Skill。单一职责原则在 Skill 编写里同样适用!
-
参数要“宽容”:用户在描述需求时往往不严谨。我在
skill.json里把参数定义得模糊了一点(比如用text_data而不是严格的csv_string),然后在main.py里做了大量的预判断和容错处理。让 Skill 去适应用户,别让用户来适应 Skill。 -
注释即文档:在
main.py里,我尽量把每一步正则匹配的逻辑都写了中文注释。这样下次我自己维护,或者 Trae 在生成解释时,都能更准确。
效果展示:
以前处理一个 5000 行的脏数据表,我得跟 AI 来回拉扯十几轮,还要手动修修补补,耗时 20 分钟+。
现在?30 秒。直接输出干净的可导入数据。真香!
标准化打包
为了方便大家直接导入复用,我按官方建议的目录结构打了个包。你只需要解压放到你的 Skills 目录,重启一下 Trae 就能用了。
data-cleaner-pro/
├── skill.json # 定义了什么情况下触发,参数有哪些
├── main.py # 核心正则和清洗逻辑(基于 pandas 和 re)
└── README.md # 简单的使用说明和示例
https://gitcode.com/yzjjlwhy/data-cleaner-pro
这个 Skill 目前只覆盖了我常用的几种清洗场景(手机号、身份证、日期、去重)。如果你有更变态的清洗需求,欢迎在评论区留言!
Trae 的魅力就在于此吧, 希望大家都能建立起自己的技能军火库!![]()
有问题随时滴滴我~

