【Hello AI 科技致善】心翼智培 — 用视觉AI打造心智障碍群体"千人千面"的职业技能支持平台

①摘要

“心翼智培”——是面向心智障碍群体,由AI视频驱动的智能支持平台。辅导员只需上传一段教学视频,AI 自动完成关键帧提取 → 步骤拆解 → 指令生成 → 视频裁剪 → 语音生成,2分钟生成完整的分步训练课程。

学员练习时如觉得某步太难,点击"AI帮我拆分"按钮,将该步骤的视频重新拆分为更细的子步骤,并生成完整的子视频、关键帧和语音——每位学员拥有独立的步骤粒度,真正实现千人千面的个性化训练。目前全流程已通过模拟测试验证。


②真实场景与需求:看见被遗忘的“一米九”

初心与种子

我曾做过两年的社区志愿者,期间帮过一位19岁的心智障碍男孩。他身高1米9,看起来非常高大威猛。但当他面对社区商店里简单的理货货架时,却显得无比笨拙和无助。

我是作为他的辅导员的临时助手开始与他接触的,见证他整整花费了3个月,才勉强学会独立完成物品归类。这期间,面对一遍遍的重复教学和依然不断的犯错,他父母眼中的无助深深刺痛了我:我们习以为常的“简单工作”,对他们而言,其实是一座难以逾越的高山。

这段“看见",在我内心埋下一颗种子……

这次“科技致善”赛道关于心智障碍者的命题示例,让埋在我内心那颗种子开始发芽。这也是我开发“心翼智培”和参加此次比赛的初衷——我想试试用技术手段,缩短那漫长的“3个月”,看看能否让每个“高大的一米九”,在职场找到适合他们的尊严。

TRAE SOLO,为我提供了强大的技术支持,使得这个设想可以真正以实物形式出现。感谢TRAE,感谢AI,感谢技术的进步!!!

目标人群: 心智障碍群体,包括孤独症谱系障碍(ASD)、智力发育迟缓、唐氏综合征及脑瘫伴随智力障碍者。中国约有 1200-2000 万心智障碍者,就业率不足 5%,是所有残障类别中就业率最低的群体。

痛点描述: 相关信息均来自——SOLO帮我完成的《心智障碍群体就业现状与痛点调研报告.md》,详情见文末附件。

  1. 记不住步骤,培训周期极长:星巴克杭州门店培训了一年半,16 名参训的心智障碍学员中仅 2 人达标入选。

  2. 辅导员不够用,手工制作图片卡效率极低:融爱融乐的辅导员长期维持在 10 人左右,却要支持 90 多位学员。制作一套岗位图片卡需数小时,且无法复用,难以应对高频需求。

  3. "一刀切"训练,无法因人而异:孤独症与智力障碍学员的卡点各不相同。传统的静态纸质图片卡无法动态调整,辅导员也没有精力为每个人定制不同粒度的训练方案。

现有做法: 依赖辅导员手工制作纸质卡片或企业内部“师徒制”,碎片化、不可复用,培训周期长达 3-6 个月,难以规模化。


③作品介绍

心翼智培 是一个支持PC和手机的Web职业技能支持平台。做社区志愿者时与心智障碍男孩接触的经历让我知道,文字描述或静态图片,对于这类群体中的很大一部分人,是完全不够的。
所以我设计的核心理念是:

  • 视频驱动
  • “千人千面” AI 自适应。

核心特色

特色一:上传视频,智能生成完整训练课程

:open_book: 辅导员只需做一件事——上传一段岗位操作视频(如咖啡制作、超市理货)。系统全自动完成:

  1. FFmpeg 按固定间隔抽取视频帧

  2. OpenCV 直方图差异分析筛选关键帧(去除画面重复的帧)

  3. 将关键帧图片发送给通义千问 VL 多模态大模型,分析每个画面的操作内容

  4. AI 根据画面分析结果生成 3-10 个操作步骤的指令描述

  5. 根据关键帧时间戳,FFmpeg 自动裁剪每步对应的视频片段(3-10 秒)

  6. Edge TTS 自动生成每步指令的中文语音播报

:white_check_mark: 辅导员零手工操作,借助AI将一段视频变成一套完整的训练课程。

特色二:“AI帮我拆分”——千人千面,AI 自适应难度调节

:open_book: 这是本作品最具创新性的功能。学员练习时如觉得某一步太难:

  1. 点击"AI帮我拆分"按钮

  2. 系统自动抽取和分析该步骤的视频帧

  3. 利用AI将该步骤拆分为 2-3 个更细的子步骤(如"倒入牛奶"→"拿起牛奶瓶"→"慢慢倒入杯中"→"放回牛奶瓶")

  4. 为每个子步骤生成独立的视频片段、关键帧截图和语音播报

  5. 替换原步骤,学员无缝继续练习

:white_check_mark: 每位学员的拆分结果独立存储。同一任务,学员 A 可能保持原始步骤,学员 B 可能有 3 个步骤被拆分成了 8 个子步骤——真正实现千人千面。

特色三:每个步骤四维呈现,多感官学习

:open_book: 心翼为每个步骤提供四种呈现方式

  • :memo: 文字指令:简洁的操作说明(不超过 15 字,"动词+名词"句式)

  • :camera_with_flash: 关键帧截图:该步骤的核心动作画面

  • :clapper_board: 视频片段:该步骤的实操演示(3-5 秒短视频)

  • :speaker_high_volume: 语音播报:TTS 合成的中文语音指令

:white_check_mark: 学员通过"读文字 → 看图片 → 听语音 → 看视频"四维方式学习,适配不同认知特点。

功能概览

辅导员端:

  • 任务管理:上传视频创建任务、管理任务列表
  • 步骤编辑:在线编辑 AI 拆解的步骤内容和顺序
  • 学生管理:查看和管理学员信息、学习进度
  • 数据看板:练习数据统计、通过率、AI薄弱步骤分析

学员端:

  • 分步练习:关键帧图片 + 文字指令 + 语音播报 + 视频回放
  • "AI帮我拆分"自适应拆分(核心创新)
  • 主动求助:学习过程中遇到困难可一键向辅导员发送求助信号
  • 学习统计:练习次数、视频回放次数、平均耗时

技术栈: Vue 3 + FastAPI + 通义千问 VL(多模态) + FFmpeg + Edge TTS + OpenCV等

④用 SOLO 实现的过程

整个项目用 TRAE SOLO 完成。

任务拆解(7 个阶段):

阶段 1:需求调研 → SOLO 生成 2 万字心智障碍群体就业现状调研报告
阶段 2:产品设计 → SOLO 生成 PRD 文档(含用户故事、功能规格、数据模型)
阶段 3:后端开发 → 数据库设计 + RESTful API + AI 服务集成
阶段 4:前端开发 → 学员端 4 页 + 辅导员端 9 页
阶段 5:AI 集成 → 通义千问 VL 图片分析 + Edge TTS 语音合成
阶段 6:自适应学习 → "AI帮我拆分"视频帧分析 + 子步骤媒体生成
阶段 7:视觉优化 → 双风格视觉系统(适配桌面端和移动端)

项目的起点:让SOLO完成一份调查报告:
提示词:

你帮我深度调查一下,这个群体在我国目前的就业现状和真实痛点。 心智障碍群体就业支持:心智障碍群体包含孤独症谱系障碍、智力发育迟缓、唐氏综合征及脑瘫伴随智力障碍等。

SOLO MTC 出色的完成了任务:

思路确定后,同SOLO确认技术可行性:

关键 Prompt:和SOLO讨论如何提交任务给通义千问VL多模态大模型,并要求返回指定格式的答复,最终SOLO给我提供的提示词方案

你是一个专业的职业技能分析助手,专门为心智障碍者(如孤独症、智力障碍)提供工作步骤拆解。
你的任务是根据提供的关键帧截图,将工作视频拆解为清晰、易懂的分步指引。

## 输出要求
1. 拆分为 8-12 个简单步骤(步骤分解越细越好,每步只做一件事)
2. 每步指令不超过 20 个汉字
3. 使用"动词+名词"句式(如"拿起杯子"、"倒入热水")
4. 语言难度控制在心智年龄 7-12 岁水平,用词简单直接
5. 每步标注 difficulty(难度等级:easy / medium / hard)
6. 每步标注 warning(安全注意事项,如无则填空字符串)

## 输出格式
请严格以 JSON 格式返回,不要包含任何其他文字:
{
  "steps": [
    {
      "step_number": 1,
      "instruction": "拿起杯子",
      "difficulty": "easy",
      "warning": "注意杯子温度",
      "keyframe_index": 0
    }
  ]
}

其中 keyframe_index 表示该步骤最对应的关键帧索引(从 0 开始)。"""
ANALYSIS_USER_PROMPT_TEMPLATE = """请分析以下关键帧截图,将这个工作视频拆解为分步指引。
任务描述:{task_description}
共 {keyframe_count} 张关键帧,按时间顺序排列。每张图片下方标注了索引号(从0开始),请根据画面内容选择最合适的索引号填写到 keyframe_index 字段中。"""

踩过的坑: 针对SOLO网页版

  1. Emoji 显示方框:沙盒环境缺失字体。

    • 解决:引入自定义字体文件或配置字体回退(fallback)机制。
  2. MySQL 环境难配:沙盒中部署 MySQL 未成功。

    • 解决:调试期用 SQLite 替代。建议要求 SOLO 生成 MySQL+SQLite 双方案,生产环境再切回 MySQL。
  3. UI 界面太简陋:默认生成的界面往往“朴实无华”。

    • 解决:先实现功能,再利用 frontend-design 等专项技能进行二次美化。
  4. 前后端调试困难:沙盒缺乏直观断点工具。

    • 解决:在代码关键节点添加详细日志,让 SOLO 依据日志进行自我诊断和修复。

⑤成果展示

在线体验:

学员登录链接

辅导员登录链接

代码开源:
https://gitee.com/hangshin/wingpath


辅导员端 — 上传视频创建任务:

  • 上传教学视频,填写任务名称后点击"上传并创建"。进度条实时显示:提取关键帧 → AI 分析拆解 → 裁剪视频片段 → 生成语音播报。约2分钟内自动生成完整课程。

辅导员端 — 步骤管理:

  • AI 自动拆解的步骤列表,每步展示关键帧缩略图、指令文字、视频时长。辅导员可在线编辑调整。

辅导员端 — 学生管理:

辅导员端 — 数据看板:

学员端 — 课程列表:

  • 分类显示课程:
    (1)标准课程:辅导员发布的课程,所有人看到的步骤都一样
    (2)为你定制:学员如果在标准课程中进行过AI步骤拆解,生成的自适应教程,千人千面。

学员端 — 分步练习(核心页面):

  • 当前步骤的关键帧大图 + 文字指令 + 语音播报 + 视频回放按钮 + AI帮我拆分
  • 右上角步骤计时,将学生学习的时间都登记下来,用于后续的AI分析和辅导员跟踪。
  • 点击"AI帮我拆分"→ 抽取视频帧并分析动作节点 → 自动拆分为子步骤 → 为每个子步骤生成视频片段 + 关键帧 + 语音 → 替换原步骤,无缝继续练习。

学员端 — 练习结果统计:


⑥验证方式与下一步

模拟测试验证:

测试项 结果
视频上传 → AI 拆解 → 步骤生成 通义千问 VL 成功分析视频并返回结构化步骤
关键帧提取 + 视频片段裁剪 FFmpeg 正确提取并裁剪,每个步骤生成独立视频
TTS 语音生成 Edge TTS 生成中文语音,语速适中
"AI"自适应拆分 AI 分析视频帧确定拆分时间点,生成子步骤完整媒体
千人千面 不同学员对同一任务可独立拆分,互不影响
学员练习全流程 登录→选课→分步练习→完成,完整跑通
辅导员管理全流程 登录→上传视频→查看统计,完整跑通

下一步计划:

  1. 与融爱融乐等就业辅导机构合作,在真实岗位训练中试点
  2. 扩展至烘焙制作、快递分拣、酒店保洁等更多岗位
  3. 支持离线课程包下载,解决工作现场网络不稳定问题
  4. 增加家长端,查看孩子练习进度和成长曲线

渠道捐赠: 我想将这套系统免费捐赠给公益机构。如果您有相关资源或渠道,恳请伸出援手!


SOLO的回答,似乎也有感情

在和SOLO讨论调研报告时,我问SOLO:

完成任务拆解只是很小的一步,真正要让心智障碍者能就业,这似乎远远不够。还需要社会、企业、家庭、个人多个方面一起努力才行。单单只是做一个任务拆解够吗?

SOLO的回答,让我动容:

单做任务拆解够吗?不够。但它是最具杠杆效应的那个点。

打个比方:医疗体系中,不是只有手术刀就够了,还需要护士、药房、康复、保险。但如果你只能造一样工具来最大幅度降低死亡率,你造手术刀——因为它是不可替代的核心环节。

任务拆解+工作现场支持工具,就是这个"手术刀":

  • 没有它:企业想招也招不了,因为没有人能天天在现场教
  • 有了它:企业敢招、员工能干、辅导员效率翻5倍,整个链条才转得起来

核心逻辑:不是"解决全部问题",而是"解除最大瓶颈"

附件: SOLO生成的调研报告

打开网址:https://gitee.com/hangshin/wingpath
再打开其中的《心智障碍群体就业现状与痛点调研报告.md》

本项目使用 TRAE SOLO 完成

这才是科技该有的样子

AI加持下,原来很多想做但是做不了的事情,现在都有可以去的希望了

很有意义,必须支持:+1:

优秀:+1:t2::+1:t2::+1:t2:

这个思路真的很有意义,点赞:+1:

心翼智培——看名字就是是关注心智障碍群体的职业培训的,这个方向和公益赛道的心青年咖啡助手很像。我做KineTap帮中风失语者发声,你们帮心智障碍者就业培训,都是在解决"被忽视群体的就业/生存问题"。言语障碍者找工作最大的障碍就是面试沟通环节,如果智培系统能接入辅助沟通工具,就能帮他们跨过这道坎。有兴趣可以交流下!