①摘要
“心翼智培”——是面向心智障碍群体,由AI视频驱动的智能支持平台。辅导员只需上传一段教学视频,AI 自动完成关键帧提取 → 步骤拆解 → 指令生成 → 视频裁剪 → 语音生成,2分钟生成完整的分步训练课程。
学员练习时如觉得某步太难,点击"AI帮我拆分"按钮,将该步骤的视频重新拆分为更细的子步骤,并生成完整的子视频、关键帧和语音——每位学员拥有独立的步骤粒度,真正实现千人千面的个性化训练。目前全流程已通过模拟测试验证。
②真实场景与需求:看见被遗忘的“一米九”
初心与种子:
我曾做过两年的社区志愿者,期间帮过一位19岁的心智障碍男孩。他身高1米9,看起来非常高大威猛。但当他面对社区商店里简单的理货货架时,却显得无比笨拙和无助。
我是作为他的辅导员的临时助手开始与他接触的,见证他整整花费了3个月,才勉强学会独立完成物品归类。这期间,面对一遍遍的重复教学和依然不断的犯错,他父母眼中的无助深深刺痛了我:我们习以为常的“简单工作”,对他们而言,其实是一座难以逾越的高山。
这段“看见",在我内心埋下一颗种子……
这次“科技致善”赛道关于心智障碍者的命题示例,让埋在我内心那颗种子开始发芽。这也是我开发“心翼智培”和参加此次比赛的初衷——我想试试用技术手段,缩短那漫长的“3个月”,看看能否让每个“高大的一米九”,在职场找到适合他们的尊严。
TRAE SOLO,为我提供了强大的技术支持,使得这个设想可以真正以实物形式出现。感谢TRAE,感谢AI,感谢技术的进步!!!
目标人群: 心智障碍群体,包括孤独症谱系障碍(ASD)、智力发育迟缓、唐氏综合征及脑瘫伴随智力障碍者。中国约有 1200-2000 万心智障碍者,就业率不足 5%,是所有残障类别中就业率最低的群体。
痛点描述: 相关信息均来自——SOLO帮我完成的《心智障碍群体就业现状与痛点调研报告.md》,详情见文末附件。
-
记不住步骤,培训周期极长:星巴克杭州门店培训了一年半,16 名参训的心智障碍学员中仅 2 人达标入选。
-
辅导员不够用,手工制作图片卡效率极低:融爱融乐的辅导员长期维持在 10 人左右,却要支持 90 多位学员。制作一套岗位图片卡需数小时,且无法复用,难以应对高频需求。
-
"一刀切"训练,无法因人而异:孤独症与智力障碍学员的卡点各不相同。传统的静态纸质图片卡无法动态调整,辅导员也没有精力为每个人定制不同粒度的训练方案。
现有做法: 依赖辅导员手工制作纸质卡片或企业内部“师徒制”,碎片化、不可复用,培训周期长达 3-6 个月,难以规模化。
③作品介绍
心翼智培 是一个支持PC和手机的Web职业技能支持平台。做社区志愿者时与心智障碍男孩接触的经历让我知道,文字描述或静态图片,对于这类群体中的很大一部分人,是完全不够的。
所以我设计的核心理念是:
- 视频驱动
- “千人千面” AI 自适应。
核心特色
特色一:上传视频,智能生成完整训练课程
辅导员只需做一件事——上传一段岗位操作视频(如咖啡制作、超市理货)。系统全自动完成:
-
FFmpeg 按固定间隔抽取视频帧
-
OpenCV 直方图差异分析筛选关键帧(去除画面重复的帧)
-
将关键帧图片发送给通义千问 VL 多模态大模型,分析每个画面的操作内容
-
AI 根据画面分析结果生成 3-10 个操作步骤的指令描述
-
根据关键帧时间戳,FFmpeg 自动裁剪每步对应的视频片段(3-10 秒)
-
Edge TTS 自动生成每步指令的中文语音播报
辅导员零手工操作,借助AI将一段视频变成一套完整的训练课程。
特色二:“AI帮我拆分”——千人千面,AI 自适应难度调节
这是本作品最具创新性的功能。学员练习时如觉得某一步太难:
-
点击"AI帮我拆分"按钮
-
系统自动抽取和分析该步骤的视频帧
-
利用AI将该步骤拆分为 2-3 个更细的子步骤(如"倒入牛奶"→"拿起牛奶瓶"→"慢慢倒入杯中"→"放回牛奶瓶")
-
为每个子步骤生成独立的视频片段、关键帧截图和语音播报
-
替换原步骤,学员无缝继续练习
每位学员的拆分结果独立存储。同一任务,学员 A 可能保持原始步骤,学员 B 可能有 3 个步骤被拆分成了 8 个子步骤——真正实现千人千面。
特色三:每个步骤四维呈现,多感官学习
心翼为每个步骤提供四种呈现方式:
-
文字指令:简洁的操作说明(不超过 15 字,"动词+名词"句式) -
关键帧截图:该步骤的核心动作画面 -
视频片段:该步骤的实操演示(3-5 秒短视频) -
语音播报:TTS 合成的中文语音指令
学员通过"读文字 → 看图片 → 听语音 → 看视频"四维方式学习,适配不同认知特点。
功能概览
辅导员端:
- 任务管理:上传视频创建任务、管理任务列表
- 步骤编辑:在线编辑 AI 拆解的步骤内容和顺序
- 学生管理:查看和管理学员信息、学习进度
- 数据看板:练习数据统计、通过率、AI薄弱步骤分析
学员端:
- 分步练习:关键帧图片 + 文字指令 + 语音播报 + 视频回放
- "AI帮我拆分"自适应拆分(核心创新)
- 主动求助:学习过程中遇到困难可一键向辅导员发送求助信号
- 学习统计:练习次数、视频回放次数、平均耗时
技术栈: Vue 3 + FastAPI + 通义千问 VL(多模态) + FFmpeg + Edge TTS + OpenCV等
④用 SOLO 实现的过程
整个项目用 TRAE SOLO 完成。
任务拆解(7 个阶段):
阶段 1:需求调研 → SOLO 生成 2 万字心智障碍群体就业现状调研报告
阶段 2:产品设计 → SOLO 生成 PRD 文档(含用户故事、功能规格、数据模型)
阶段 3:后端开发 → 数据库设计 + RESTful API + AI 服务集成
阶段 4:前端开发 → 学员端 4 页 + 辅导员端 9 页
阶段 5:AI 集成 → 通义千问 VL 图片分析 + Edge TTS 语音合成
阶段 6:自适应学习 → "AI帮我拆分"视频帧分析 + 子步骤媒体生成
阶段 7:视觉优化 → 双风格视觉系统(适配桌面端和移动端)
项目的起点:让SOLO完成一份调查报告:
提示词:
你帮我深度调查一下,这个群体在我国目前的就业现状和真实痛点。 心智障碍群体就业支持:心智障碍群体包含孤独症谱系障碍、智力发育迟缓、唐氏综合征及脑瘫伴随智力障碍等。
SOLO MTC 出色的完成了任务:
思路确定后,同SOLO确认技术可行性:
关键 Prompt:和SOLO讨论如何提交任务给通义千问VL多模态大模型,并要求返回指定格式的答复,最终SOLO给我提供的提示词方案
你是一个专业的职业技能分析助手,专门为心智障碍者(如孤独症、智力障碍)提供工作步骤拆解。
你的任务是根据提供的关键帧截图,将工作视频拆解为清晰、易懂的分步指引。
## 输出要求
1. 拆分为 8-12 个简单步骤(步骤分解越细越好,每步只做一件事)
2. 每步指令不超过 20 个汉字
3. 使用"动词+名词"句式(如"拿起杯子"、"倒入热水")
4. 语言难度控制在心智年龄 7-12 岁水平,用词简单直接
5. 每步标注 difficulty(难度等级:easy / medium / hard)
6. 每步标注 warning(安全注意事项,如无则填空字符串)
## 输出格式
请严格以 JSON 格式返回,不要包含任何其他文字:
{
"steps": [
{
"step_number": 1,
"instruction": "拿起杯子",
"difficulty": "easy",
"warning": "注意杯子温度",
"keyframe_index": 0
}
]
}
其中 keyframe_index 表示该步骤最对应的关键帧索引(从 0 开始)。"""
ANALYSIS_USER_PROMPT_TEMPLATE = """请分析以下关键帧截图,将这个工作视频拆解为分步指引。
任务描述:{task_description}
共 {keyframe_count} 张关键帧,按时间顺序排列。每张图片下方标注了索引号(从0开始),请根据画面内容选择最合适的索引号填写到 keyframe_index 字段中。"""
踩过的坑: 针对SOLO网页版
-
Emoji 显示方框:沙盒环境缺失字体。
- 解决:引入自定义字体文件或配置字体回退(fallback)机制。
-
MySQL 环境难配:沙盒中部署 MySQL 未成功。
- 解决:调试期用 SQLite 替代。建议要求 SOLO 生成 MySQL+SQLite 双方案,生产环境再切回 MySQL。
-
UI 界面太简陋:默认生成的界面往往“朴实无华”。
- 解决:先实现功能,再利用 frontend-design 等专项技能进行二次美化。
-
前后端调试困难:沙盒缺乏直观断点工具。
- 解决:在代码关键节点添加详细日志,让 SOLO 依据日志进行自我诊断和修复。
⑤成果展示
在线体验:
学员登录链接
辅导员登录链接
代码开源:
https://gitee.com/hangshin/wingpath
辅导员端 — 上传视频创建任务:
- 上传教学视频,填写任务名称后点击"上传并创建"。进度条实时显示:提取关键帧 → AI 分析拆解 → 裁剪视频片段 → 生成语音播报。约2分钟内自动生成完整课程。
辅导员端 — 步骤管理:
- AI 自动拆解的步骤列表,每步展示关键帧缩略图、指令文字、视频时长。辅导员可在线编辑调整。
辅导员端 — 学生管理:
- 可以查看学生详细信息和学生成长档案
辅导员端 — 数据看板:
- 实时掌握每位学员的练习进度、通过率和薄弱环节,快速识别需要关注的学员。**
学员端 — 课程列表:
- 分类显示课程:
(1)标准课程:辅导员发布的课程,所有人看到的步骤都一样
(2)为你定制:学员如果在标准课程中进行过AI步骤拆解,生成的自适应教程,千人千面。
学员端 — 分步练习(核心页面):
- 当前步骤的关键帧大图 + 文字指令 + 语音播报 + 视频回放按钮 + AI帮我拆分
- 右上角步骤计时,将学生学习的时间都登记下来,用于后续的AI分析和辅导员跟踪。
- 点击"AI帮我拆分"→ 抽取视频帧并分析动作节点 → 自动拆分为子步骤 → 为每个子步骤生成视频片段 + 关键帧 + 语音 → 替换原步骤,无缝继续练习。
学员端 — 练习结果统计:
- 总耗时,个步骤表现耗时等,辅助辅导员进行细节的评估
⑥验证方式与下一步
模拟测试验证:
| 测试项 | 结果 |
|---|---|
| 视频上传 → AI 拆解 → 步骤生成 | 通义千问 VL 成功分析视频并返回结构化步骤 |
| 关键帧提取 + 视频片段裁剪 | FFmpeg 正确提取并裁剪,每个步骤生成独立视频 |
| TTS 语音生成 | Edge TTS 生成中文语音,语速适中 |
| "AI"自适应拆分 | AI 分析视频帧确定拆分时间点,生成子步骤完整媒体 |
| 千人千面 | 不同学员对同一任务可独立拆分,互不影响 |
| 学员练习全流程 | 登录→选课→分步练习→完成,完整跑通 |
| 辅导员管理全流程 | 登录→上传视频→查看统计,完整跑通 |
下一步计划:
- 与融爱融乐等就业辅导机构合作,在真实岗位训练中试点
- 扩展至烘焙制作、快递分拣、酒店保洁等更多岗位
- 支持离线课程包下载,解决工作现场网络不稳定问题
- 增加家长端,查看孩子练习进度和成长曲线
渠道捐赠: 我想将这套系统免费捐赠给公益机构。如果您有相关资源或渠道,恳请伸出援手!
SOLO的回答,似乎也有感情
在和SOLO讨论调研报告时,我问SOLO:
完成任务拆解只是很小的一步,真正要让心智障碍者能就业,这似乎远远不够。还需要社会、企业、家庭、个人多个方面一起努力才行。单单只是做一个任务拆解够吗?
SOLO的回答,让我动容:
单做任务拆解够吗?不够。但它是最具杠杆效应的那个点。
打个比方:医疗体系中,不是只有手术刀就够了,还需要护士、药房、康复、保险。但如果你只能造一样工具来最大幅度降低死亡率,你造手术刀——因为它是不可替代的核心环节。
任务拆解+工作现场支持工具,就是这个"手术刀":
- 没有它:企业想招也招不了,因为没有人能天天在现场教
- 有了它:企业敢招、员工能干、辅导员效率翻5倍,整个链条才转得起来
核心逻辑:不是"解决全部问题",而是"解除最大瓶颈"
附件: SOLO生成的调研报告
打开网址:https://gitee.com/hangshin/wingpath
再打开其中的《心智障碍群体就业现状与痛点调研报告.md》
本项目使用 TRAE SOLO 完成









