【学习工作】VoiceBoard|边说边画的 AI 思路板:把讨论变成 Trae 立刻能用的上下文

【学习工作】VoiceBoard|边说边画的 AI 思路板:把讨论变成 Trae 立刻能用的上下文

1. 创意名称 + 创意介绍

创意名称:VoiceBoard|语音驱动的 AI 思路板助手

我想做一个面向产品讨论、头脑风暴和 AI Coding 场景的 Web 工具:用户一边用语音表达想法,系统一边把语音转写成文字,并自动提取其中的主题、节点、关系和待办事项,生成一张可编辑的 HTML 思路板。

这个产品想解决的问题是:很多有价值的想法都发生在语音讨论里,但讨论结束后,白板是空的,文档也还没写。AI 会议助手可以生成纪要,但通常只是文字;AI 白板工具可以画图,但往往需要用户先输入明确的 Prompt。VoiceBoard 希望把两者连接起来,让“讨论”本身成为输入,让思路在讨论过程中逐渐变成结构化产物。

我想到这个创意,是因为在做产品构

voiceboard-pitch.zip (278.4 KB)

思和开发沟通时,经常会出现一种情况:说的时候很清楚,但会后整理成文档、流程图、架构图时又要重新来一遍。如果能让 AI 在语音讨论中自动沉淀结构,并把结果提供给 Trae 这样的 AI Coding Agent 使用,就能把“想清楚、表达清楚、实现清楚”压缩到同一个过程里。

产品形态上,VoiceBoard 会是一个 Web App + 本地 MCP Server 的组合。Web App 负责语音输入、实时转写和 HTML 思路板展示;MCP Server 负责把当前思路板暴露给 Trae 等 AI 工具,让 Agent 可以读取、总结、补充和进一步生成代码任务。

2. 目标用户及痛点

VoiceBoard 主要面向三类用户:

第一类是独立开发者或全栈开发者。他们经常一个人构思产品、拆需求、想架构,但很多思考过程停留在脑子里或语音里,后续还要重新整理成文档和任务。

第二类是产品经理、项目负责人和设计同学。他们经常参与需求评审、用户访谈、头脑风暴和方案讨论,需要把大量口头内容整理成清晰的产品结构、流程图、需求列表和决策记录。

第三类是使用 Trae、Cursor、VS Code 等 AI Coding 工具的小团队。他们不只是需要一份会议纪要,而是希望讨论内容能直接变成 AI Agent 可读取的上下文,继续用于生成 PRD、技术方案、代码骨架或开发任务。

典型使用场景包括:

  • 一个人对着电脑说出产品创意,系统自动生成需求树和功能模块图。
  • 产品评审会结束后,直接得到一张结构化的方案图和待办列表。
  • 用户访谈过程中,系统自动抽取用户痛点、使用场景和可能的解决方案。
  • 在 Trae 中边讨论边沉淀上下文,Agent 根据当前思路板继续生成文档或代码。

当前痛点主要有三个:

第一,语音讨论容易蒸发。很多关键判断、灵感和争议点只存在于会议过程中,会后再整理时容易遗漏。

第二,纪要和白板是割裂的。会议工具擅长转写和总结,白板工具擅长可视化,但用户需要手动把文字整理成图。

第三,AI Coding 缺少过程上下文。开发者在 Trae 里让 Agent 写代码时,往往还要重新解释产品背景、需求边界和设计决策,前面的讨论没有真正变成 Agent 能使用的上下文。

3. 价值与意义

VoiceBoard 的价值主要体现在三个方面。

首先,它能提升讨论后的整理效率。过去一场产品讨论结束后,还需要人工整理纪要、画图、拆任务。VoiceBoard 希望让会议结束时就已经有一张可编辑的思路图、一份结构化需求草稿和一组待确认任务,减少会后重复劳动。

其次,它能提升复杂想法的表达质量。语音表达天然是跳跃的,讨论中会有补充、否定、转折和跑题。VoiceBoard 会把这些内容整理为节点、关系和结构,让产品、设计、开发之间更容易对齐。

更重要的是,它能把讨论过程变成 AI Agent 可用的上下文。通过 MCP,Trae 可以读取当前思路板,理解用户刚才讨论过的产品目标、功能模块、技术约束和优先级,并继续生成代码、PRD、任务拆解或技术方案。

这让 VoiceBoard 不只是一个“给人看的白板”,而是一个“给人和 AI 同时看的上下文面板”。

4. 产品核心功能

VoiceBoard 的 MVP 会优先实现以下功能:

  1. 语音转写
    用户打开网页后,可以直接用麦克风输入想法,系统实时显示转写文本。

  2. 分段理解
    系统每隔 5–10 秒对新增语音内容做一次结构化分析,提取主题、节点、关系、问题和待办。

  3. HTML 思路板
    系统把结构化结果渲染成一张 HTML 思路板,支持思维导图、需求卡片、流程视图和决策记录等展示方式。

  4. AI 建议确认
    AI 不会直接强行修改整张图,而是把新增节点、合并关系、修改建议放到“待确认区”,由用户接受、拒绝或手动编辑。

  5. MCP 接入
    本地 MCP Server 提供 get_board_state、add_node、link_nodes、summarize_board、export_board_html 等能力,让 Trae 或其他 AI Coding Agent 能直接读取和使用思路板。

  6. 导出分享
    用户可以把思路板导出为 HTML、Markdown、图片或 JSON,方便报名展示、团队分享或继续开发。

5. 技术实现思路

VoiceBoard 的技术架构可以分为四层:

第一层是语音层。它负责浏览器录音、语音识别、分段转写和时间戳记录。MVP 阶段可以先使用浏览器 Web Speech API,后续再接入 Whisper 或其他语音识别 API。

第二层是理解层。它负责把转写文本交给 LLM,提取结构化 JSON,例如节点、边、标签、关系、置信度和操作意图。这里的关键不是让 AI 直接画图,而是让 AI 输出稳定的数据结构。

第三层是展示层。前端根据 JSON 渲染 HTML 思路板。相比直接操作复杂 Canvas,HTML/CSS/SVG 更适合 AI 生成和修改,也更适合比赛阶段快速做出漂亮、稳定、可导出的 Demo。

第四层是 MCP 层。它把思路板状态开放给 Trae,让 AI Agent 可以读取当前讨论上下文,也可以反向写入补充节点、生成任务或输出需求文档。

一个简化的结构如下:

语音输入
→ 实时转写
→ LLM 结构化理解
→ 生成节点和关系
→ HTML 思路板展示
→ MCP 暴露给 Trae
→ Agent 生成 PRD / 任务 / 代码骨架

6. 主要难点与解决思路

这个产品最大的难点不是“画图”,而是把混乱、跳跃、多人打断的语音讨论,稳定地转成一张结构正确、可持续更新、用户愿意保留的图。

第一个难点是实时语义结构提取。语音讨论并不线性,用户可能会补充、推翻、跳转话题。MVP 阶段会先限制图的类型,只重点支持思维导图和需求拆解图,避免一开始覆盖太多场景。

第二个难点是增量更新。新内容不能每次都让整张图重排,否则用户会迷失。解决方式是锁定已有节点位置,只对新增节点做局部布局,并把重要变更放入待确认区。

第三个难点是用户可控。AI 自动理解一定会有误差,所以产品不能追求完全自动化。VoiceBoard 会强调“AI 提建议,人来确认”,支持编辑、撤销和版本回退。

第四个难点是和 Trae 的连接方式。如果不能深度嵌入 Trae,也可以先以本地 Web App + MCP Server 的方式实现,让 Trae 通过 MCP 读取思路板上下文。

7. 一个月 MVP 计划

第一周:完成 Web App 基础界面、语音输入、实时转写和会话记录。

第二周:接入 LLM,把语音转写内容转换成结构化 JSON,完成节点、关系、任务和问题的抽取。

第三周:实现 HTML 思路板渲染,支持思维导图、需求卡片和基础编辑能力。

第四周:实现本地 MCP Server,开放思路板读取和导出能力,打磨 Demo 场景和比赛展示材料。

一个月内不追求完整多人协作,也不自研复杂白板引擎。目标是跑通一个清晰闭环:说话 → 出文字 → 出结构 → 出图 → 可编辑 → Trae 可读取。

8. 差异化

VoiceBoard 和常见产品的区别在于:

它不是普通会议纪要工具。会议纪要工具通常产出文字,而 VoiceBoard 产出结构化思路板。

它也不是普通 AI 白板工具。AI 白板通常依赖用户输入 Prompt 或手动整理素材,而 VoiceBoard 把语音讨论本身作为输入。

它也不只是文本转流程图工具。普通文本转图工具通常是一次性生成,而 VoiceBoard 更强调讨论过程中的增量更新、人工确认和 AI Agent 可读取。

VoiceBoard 的核心定位是:

把每一次语音讨论,变成 Trae 立刻能用的结构化上下文。

9. 一句话总结

VoiceBoard 是一个面向 AI Coding 场景的语音思路板助手:用户边说想法,系统边生成可编辑的 HTML 思路板,并通过 MCP 把讨论内容变成 Trae Agent 可以直接使用的上下文。