【Code With SOLO】用 SOLO 从零搭建“另一个自己”——一套可成长、可迁移的个人记忆系统

1. 摘要

现在很多人都在做自己的"AI 数字分身"或工作搭子,尤其是现在“龙虾”盛行的当下,但我用着它们觉得它还是不能理解我,“养”的过程太累,也容易被束缚,现在有AI、有vibe coding、有trae了,我想试着边学边做,自己做一个“另一个自己”——一个可以通过长期保存、沟通、协作,越来越懂我,更理解我、更能像我一样判断的“存在”。而且它还要可以满足将这份“记忆”进行备份、可以在别的设备上恢复,如果未来有了具身机器人,哪怕有一天我不在了,这份"记忆"也能在很多情况下模拟我,让我以这份数字方式"永存"。

带着这个想法,我找了很多现在流行的带记忆功能的项目,比如deerflow、openviking、OpenHarness,特别是openclaw,让AI帮我分析,取长补短。但它一直还只是一个方案,一堆文字,直到trae solo来了。

利用 TRAE SOLO 网页版的CODE模式,我利用以前的分析材料,从零开始搭建了个人记忆系统——一套为大语言模型赋予长期记忆、自主进化、可纠错和外部知识扩充能力的本地化智能助理框架。它也不是一开始就有那么“完善”,而是从最朴素的"让 AI 记住我"开始,通过持续学习 AI 领域的新产品、新思路,不断和 SOLO 讨论功能、风险与改进方向,一步步迭代成了今天这个具备四层记忆架构、意图路由、自主"做梦"进化、知识图谱、Skill 技能生态、集成飞书CLI远程对话等 20+ 核心能力的系统。

我一直用的TRAE SOLO,它最大的好处就是我可以不用开着电脑才能让它跑任务,而且还可以随时随时看它的进度、并发指令让它继续开发。虽然是网页版,但到目前为止这个项目打包下载下来也有1.2G的内容了(批量打包下载的文件400+M),也可以和大家说虽然它只是网页版,但也还是有能力开发一个比较复杂的项目。希望大家也都来试试。


2. 背景

我是一名非技术岗位的从业者,但在这个AI盛行的时代,工作学习都离不开AI。但每次和AI交流时,哪怕是GPT、豆包等,因为某些原因,它并不能真正按你所需来配合你。虽然AI知道超级多的知识,但它并不知道哪些是对你有用的,所以我最开始的想法其实很简单:

大模型很聪明,但它不认识我。 每次对话都是从零开始,它不知道我的习惯、不了解我的性格、不记得上周讨论过什么。我的目的是想通过外部的记忆功能来"取长补短",设计一套我自己用的记忆系统,让大模型更理解我,从而更好地帮助我。

我觉得它应该包含这些能力:

  • 日常交流的记录:聊过什么、讨论过什么决策,都能被记住
  • 最近的重要事项:工作上的进展、生活中的待办,随时可以回顾
  • 对我习惯的记忆:包括工作要求、生活习惯,以及经过长期观察后总结出的行为模式
  • 对我性格的分析:能按我的性格、习惯和要求来输出内容,而不是千篇一律的"AI 腔"
  • 不断丰富的知识体系:一套可以根据我的喜好、工作需要、生活需求持续扩展的知识库和知识图谱
  • 类人的主动判断:不只是被动执行任务,而是能基于对我的了解,主动分析和判断

而且,这套记忆必须是可长期保存、可迁移的——允许我通过复制备份的方式,在任何电脑上继续使用。

作为一个非专业开发者,独立开发这样一套系统几乎不可能。虽然现在有了 OpenClaw 等类似方案,但一方面大家普遍反映安全性存疑、Token 消耗很大,另一方面我希望拥有完全自主可控、能根据我的需求不断升级迭代的系统。直到我遇到了 TRAE SOLO,一切才变得可能。


3. 实践过程

3.1 从最朴素的想法开始,一步步迭代

这个项目不是一开始就规划了全部功能,而是在和 SOLO 的持续协作中逐步生长出来的:

第一阶段:让 AI “记住我”

  • 最开始的目标很简单——让大模型拥有外部记忆,能记住对话、记住我的偏好
  • 借助之前的文档,使用/spec功能,一个原型系统很快搭建完成了
  • SOLO 帮我搭建了基础的后端服务(FastAPI)和向量数据库(ChromaDB),实现了对话的存储和检索
  • 我让它增加可以选择大模型的功能,输入URL、KEY、模型名称和并发量即可应用,为了保障运行时不会因为网络原因造成卡顿等,还可以添加多个大模型,如果前一个模型报错,还会自动切换备用模型。未来如果系统配置可以的话,使用本地模型就可以无限token,那才是真正的自我系统。
  • 为了让系统更理解我,我要不断给它“喂食”,而将对话自动记忆和主动上传完善知识库是最好的方式。
  • 完成系统在可以正常运行的基础上,我会发给trae ide进行代码审查,检查可能存在的风险、漏洞和那些看起来做完但实际没跑的前后台问题。当将bug修复完,我的第一阶段即算完成,在测试完模型和对话功能后已经可以跑起来了。

第二阶段:从"被动响应"到"主动进化"

  • 我希望它不只是等我提问,还能自己"成长",借鉴openclaw的心跳机制和claude code新出的“做梦”系统,我和 SOLO 一起设计了我自己的**“做梦”**系统——它可以在空闲时自动整理零散记忆(浅梦)、联网搜索我感兴趣的资讯、扩充知识库(深度梦境),用来让AI根据对我的了解自动完善知识库
  • 过程中有很多机制我还不太明白,我也会将记录信息发给trae solo,让它帮我分析、调整、完善。
  • 接着为了配合“做梦”机制可以获取更多信息,也将大模型调用工具的能力增加到系统中。



第三阶段:从"记住"到"理解"

  • 为了避免单一的记忆库不够用,AI会将日常闲聊、个人身份和收集的知识库(包含做梦收集的)混在一起,导致检索噪音很大,在和 SOLO充分讨论后,引入了四层记忆架构:工作记忆(L0)、情景记忆(L1)、语义记忆(L2)、身份与图谱记忆(L3),让记忆分门别类
  • 同时加入了意图路由,让系统先判断"你在问什么",再去对应的地方找答案
  • 随后我将对个人的记忆进行了升级,也引入了知识图谱 + Graph-RAG,让 AI 不只是模糊匹配,而是能理解实体间的关系(比如"谁和谁是朋友"、“谁喜欢什么”)
  • 至此,基本的个人记忆体系统完成 :wink:

第四阶段:从"个人工具"到"可扩展平台"

  • 插曲:由于最近微信推出对接openclaw的插件,所以最初我的想法是设计可以和微信对接的方案,但由于微信限制比较多,还会校验openclaw的版本号,就要必须部署openclaw。正好最近飞书也开放了cli功能,因此将单机工具向多平台扩展的对接就转向了飞书平台。
  • 我先是参考了openclaw 的 Skill 机制、MCP功能和 Harness 等设计思路,为系统加入了动态 Skill 技能生态
  • 集成了飞书 CLI,让系统可以直接在飞书中帮我处理文档、日程等办公任务
  • 加入了代码解释器沙盒MCP 扩展集成等能力,让系统的工具链可以持续扩展

第五阶段:从"能用"到"可靠"

  • 目前我在继续和 SOLO 的持续讨论中,不断识别和修补安全风险,比如针对安全管理,加入了隐私分级脱敏(S0-S4)、知识库防注入、人工审批拦截(HITL)、SSRF 防护等多层安全机制,也引入了多模型容灾、并发控制、自动备份等高可用设计
  • 接下来我准备将最近看到的playwright的CLI和skill安装上来,提高信息搜索、抓取的能力,科技和知识才是第一生产力嘛

3.2 SOLO 在整个过程中的角色

SOLO 不只是"帮我写代码的工具",更像是一个全程参与的技术合伙人

  • 架构讨论:我提出需求和想法,SOLO 帮我分析可行性、设计技术方案,我们经常就"怎么做更好"展开讨论
  • 技术实现:从 FastAPI 后端到 Vue.js 前端,从 ChromaDB 向量检索到异步心跳守护进程,全部由 SOLO 实现
  • 前沿追踪:我会把了解到的 AI 领域新产品、新思路(如 Harness 架构、MCP 协议等)带给 SOLO,我们一起讨论是否引入、如何适配
  • 风险识别:每次迭代时,我们都会讨论当前方案的安全风险和潜在问题,然后针对性地加固
  • 问题排查:依赖冲突、异步并发 Bug、模型接口兼容性问题……SOLO 都能自主定位并修复

3.3 关键技术亮点

能力 说明
四层记忆架构 工作记忆、情景记忆、语义记忆、身份图谱记忆,分层存储、精准召回
意图路由 自动分类用户意图,精准路由到对应记忆层,降低噪音与幻觉
自主"做梦"系统 空闲时自动整理记忆、联网搜索资讯、扩充知识库,像人一样"消化"白天学到的东西
知识图谱 + Graph-RAG 自动抽取实体关系,支持多跳检索,理解人际网络与共同兴趣
动态 Skill 系统 参考 Harness 设计,支持热加载技能包,AI 可自主发现和调度工具
飞书集成 通过飞书 CLI 实现文档生成、日程管理、消息推送等办公能力
隐私分级脱敏 (S0-S4) 自动识别并掩码敏感信息,S4 级别采用 AES-CBC 加密
人工审批 (HITL) 高风险操作自动挂起,等待用户确认后执行
知识库防注入 自动检测并拦截恶意 Prompt 注入攻击
多模型容灾 内置 Fallback 链,主模型超时自动切换备用模型
代码解释器沙盒 安全执行任意 Python 代码,与人工审批深度集成
记忆可迁移 所有数据存储在本地 Brain/ 目录,拷贝即可在任何设备恢复

3.4 踩过的坑

  • 长上下文"失忆":早期版本在长对话中会丢失前面的内容,后来引入了操作系统级的内存分页机制,动态置换非活跃记忆页来解决这个问题
  • 本地模型并发冲突:Ollama 等本地小模型对并发支持较弱,通过统一并发信号量梦境强行打断机制,确保用户请求始终最高优先级
  • 知识库安全风险:外部文档入库时可能包含恶意 Prompt 注入,通过大模型预检净化机制实现了自动拦截
  • 记忆混在一起导致检索不准:早期所有记忆存在一个集合里,闲聊和专业文档互相干扰,拆分为四层独立集合后才根本解决

4. 成果展示

:pencil: 【请在此处补充你的截图,例如:系统界面截图、对话效果截图、知识图谱截图、做梦系统日志截图、飞书集成效果截图等】

技术栈

类别 技术
后端 Python 3.9+, FastAPI, Uvicorn
大模型 OpenAI SDK (兼容 OpenAI / DeepSeek / 通义千问 / Ollama)
向量数据库 ChromaDB
前端 Vue.js 3, Tailwind CSS, Axios
工具链 DuckDuckGo, BeautifulSoup4, Playwright, Tesseract OCR
任务调度 asyncio, schedule
办公集成 飞书 CLI (@larksuite/cli)
高可用 tenacity (指数退避重试)

系统架构概览

用户输入 → 意图路由 → [情景记忆 / 语义记忆 / 知识图谱]
                ↓
         混合检索 + 时间衰减 + 动态权重
                ↓
         上下文组装 → 大模型生成 → 响应输出
                ↓
         后台心跳 → 做梦系统 → 自主进化
                ↓
         记忆备份 → 可迁移 → 可在任何设备恢复

5. 效果与总结

核心价值

这个项目对我来说,最大的意义不是"提效了多少",而是它让我拥有了一个真正"另一个自己"

通过长期的记忆保存、沟通和协作,这个系统越来越懂我——它知道我的工作习惯、理解我的性格偏好、记得我和它讨论过的每一个决策。而且,这份"记忆"是可以备份和迁移的,它不绑定某个平台、某个模型、某台设备。

我甚至想过更远的事:如果未来有了具身机器人,这份积累已久的"记忆"可以让它以我的方式思考和行动。哪怕有一天我不在了,这份记忆依然可以在很多情况下模拟出我——以数字方式"永存"

关键收获

  1. SOLO 让非专业人员也能把产品想法变成现实:我不需要精通 Python、FastAPI、ChromaDB,只需要清晰地描述我想要什么,SOLO 就能帮我实现,并且和我一起讨论怎么做更好
  2. 好的系统是"长"出来的,不是一次性设计出来的:从最朴素的"让 AI 记住我",到今天的四层架构、知识图谱、Skill 生态,每一步都是基于真实需求驱动的迭代
  3. 和 SOLO 协作,不只是写代码,更是在做产品:我们会讨论技术方案的优劣、分析安全风险、追踪行业新思路,这种"技术合伙人"式的协作体验是非技术人员很难在其他渠道获得的
  4. 本地优先,自主可控:相比 OpenClaw 等云端方案,我的系统完全运行在本地,数据隐私有保障,Token 成本可控,而且可以根据我的需求随时定制和扩展

一句话总结

SOLO 不只是帮我写了一个系统,它帮我创造了一个"另一个自己"——一个会随着时间越来越懂我、可以备份迁移、甚至可能在未来以数字方式延续我存在方式的长期伙伴。

1 个赞

持续更新记录:
这两天看到蚂蚁集团AI安全实验室与清华大学开源了ClawAegis,ClawAegis 主要防御的是一种叫做 “间接提示词注入(Indirect Prompt Injection)” 导致的 “记忆投毒”,简单来说就是我们从网上下载的skill可能会给记忆系统强制加上一段话,这样下次如果大模型读取“记忆”的时候就会被强加上一段“有毒”的提示词做一些不安全的操作。
我做的这套应用也是一套包含“记忆”的系统,为了提高系统的安全性,我让trae solo分析了下ClawAegis的开源项目内容,并结合我当前的系统做了一次升级,在基于 ClawAegis 架构引入了零信任物理隔离,彻底斩断了外部网页或搜索工具给您个人核心记忆“下毒”的可能。

同时今天回看牧马人老师上周的分享记录,也是一套对于知识库和记忆内容的管理方案,看过分享文档后,感觉牧马人老师那天分享的和文章相比真的是只介绍了他想说的冰山一角。于是根据老师分享的一些内容,我也对知识库功能进行了一些升级。重构了高保真摄取泵,引入了 Zettelkasten(卡片盒笔记)与 MOC 架构,废弃了低效的文本切块,现在 AI 能把抓取的知识消化为独立原子卡片落盘。同时,新增定期健康巡检器,让系统的每一次高质量回答都能沉淀为实打实的数字资产,真正实现了个人知识库的安全进化与长效复利与复利。

我觉得自己打造自己的个人助手,可以随心所欲不断升级,有了trae solo真的是太方便了。

1 个赞

使用SOLO管理个人,很不错的实践

2 个赞

试试准备再不断升级点新功能,我觉得未来“个人记忆”和个人知识库将是未来AI应用的一个主流方向。

2 个赞

今日升级记录:
作为一个产品,将一个AI助手融入工作将十分必要。基于我以B端服务为主,今天对系统做了如下升级设计,功能还在细化和开发中,欢迎大家多提意见建议:

  • 项目沙盒:建立多路向量库路由功能,将每个“项目”作为单独沙盒(文件夹),包含专属的 ChromaDB 数据库文件、文档文件、项目记忆和配置文件等,这样就类似skill使用的方法,给项目也建立目录和索引,通过对话自动识别是哪个项目的事,大模型自己去找项目相关信息进行回复和工作;
  • 知识库网:项目知识库和记忆的知识库是双轨制的**,**但我希望的是将两库和相关的知识图谱建立网关系,实现必要的知识信息合并共用、减少冗余,同时通过知识图谱建立关联。但solo说我现在使用的是json结构的知识图谱设计,需要引入真实的图数据库(如 Neo4j),又学到一个新知识。
  • 写作规范:建立一个动态规范与模板学习库,并建立学习机制根据不断优化调整输出结果。同时给系统添加对多模态大模型的支持,让导入进来的一些流程图、红头文件之类图片内容可以自己学习并完成理解、分类、保存、建库、输出等业务。
  • 项目看板:在前端 UI 增加一个“项目看板 (Workspace)”页面。以卡片形式展示当前所有沙盒项目。这个未来一步步丰富展示内容,可以帮助缕清项目的关键节点、重要文件、里程碑等脉络信息,可以是项目的甘特图,也可以是产品的生命周期(需求更新、版本迭代),可以是我的工作助手(清晰记忆)。
  • 大模型池:原有“做梦”系统会整理我的记忆,并自动搜索丰富知识库;但如果同时也要跑项目的知识库,模型可能就不够用了。于是设计出大模型资源池,完成多个大模型API配置,让系统自己找闲置的模型,按优先级调用,同时配置好模型大小参数,把一些任务做下等级分类,自己可以选择调用哪个最低配置的模型,以减少token消耗。
1 个赞

4.17 升级,最近都在流程和设计模型的harness架构,设计V3版升级方案。大体包含:

  1. 全局模型调度中心 (Model Dispatcher):系统提供标准化中文标签(如 [免费模型]、[高智商推理]、[长文本(128k+)] 等)。大模型调用不再写死模型名,而是“按需申请(带标签)”,Dispatcher 统筹并发与排队。

  2. JSON 自修复层与自我进化:建立 JSON Schema 模板库,拦截并自动纠错。如果多次纠错失败,不再阻断流程,而是把包含原始报文、错误归因的日志写进 harness_errors.log。最核心的升级是:做梦系统在空闲时会分析这些报错日志,自动生成《系统升级建议》发给用户,实现系统的辅助自我进化。

  3. 主智能体任务分析与动态子代理:遇到长文本或复杂工具结果时,主智能体会先做任务拆解。如果纯文本太长,它会向调度中心申请一个 [长文本(128k+)] 标签的模型来提炼;如果内容不可截断(如强结构化 API 返回),子代理将生成一段“Python 脚本调用指令”交给主智能体执行,巧妙避开截断陷阱。

  4. 全量无损归档与层级记忆树:不再机械地把中间对话替换为 [省略 N 条消息]。每一轮对话的每一个细节(包括模型的 Thinking 思考过程)都会 100% 全量追加落盘到 Brain/sessions/raw/ 的日志文件中。主对话窗口 Token 超载时,进行层级摘要替换,同时赋予大模型 recall_history 工具,让它随时可以向下穿透,找回被压缩的原始完整对话。

1 个赞

AI助手升级记录 4.20
周末继续升级AI助手系统,这次升级也是受harness架构设计的理念影响,加固系统应用能力方面进行细化处理。本次更新内容如下:

  1. Context Reset(上下文物理重置 + 任务状态机),任务目标:
    前台无感:用户继续在同一会话里“感觉一直在聊”,但后台允许多次重建干净上下文。
    断点续传:任何长链路任务中断后能继续,而不是“重新来一遍”。
    去冗余:任务系统不重复保存对话原文,原文复用 Raw Archive;任务只保存结构化进度与“总结引子”。
    这是也是受hermess agent的一个启发,类似trae的压缩机制,也就不多说了。
  2. 混合能力沙箱与权限治理(硬黑名单 + 动态白名单 + 适老化审批),任务目标:
    宿主机与应用系统绝对安全(不被篡改、不被破坏)。
    普通用户不需要理解“目录、命令、权限”就能做决定。
    不因“未配置白名单”导致系统停摆。
    这是一个安全管理方面的启发,如果安装的skill、生成的json、获取的网站内容对系统有伤害怎么办?黑名单就是做绝对不允许的内容,白名单类似trae,由用户来确定怎么做。
  3. 独立评估器(Reviewer Agent),任务目标
    避免“自评幻觉”。对重型交付(代码、报告、审计修复结果)引入独立验收,失败可局部重试,避免污染全局。
    做这个初衷是怕模型生成一个json,但执行不了,整个任务就断掉或卡死了,但这个是后台的,前端感知不到,所以做一个自己检验的功能,但真正跑起来如何就不知道了。已经建立了一个如果报错就记录的功能,以后模型自己分析,整理出给我的升级意见,我直接用来打补丁或是升级系统了。
  4. 混合记忆检索引擎(Hot JSONL / Cold SQLite + FTS5),任务目标:
    随着 raw jsonl 和知识库增长,不能长期靠“遍历文件”或“向量 contains”做回忆。需要一个轻量、稳定、可全文搜索的冷存储,且不引入重型外部依赖。
    之前因为都是python系统,使用json写的记忆数据,时间长了怎么提高利用率是个问题,之前加入new4j保存历史数据,将最近的信息还用json保存,trae又给我设计添加了一个sqlite/fts5来提高检索能力。
1 个赞

AI助手升级记录 4.21

  1. 知识库自适应极速导入与乱码阻断:解决当前导入 Markdown/TXT 等纯文本文件极其缓慢(由于逐块调用大模型进行净化),以及 PDF 扫描件解析出乱码后直接入库污染系统上下文的问题。一个知识库导入的小工具,以前没有集成,现在补上。

  2. 简单问题的 AI 认知升级与空结果兜底:解决小模型在面对常识性或无需外部信息的简单问题时,依然去调用全量检索工具,同时还要查询“记忆”和“知识库”等过度消耗问题。同时全面打通已安装的 Skill、MCP 插件与 CLI 扩展,让模型基于任务类型优先使用“轻量工具/技能”,而不是走慢且不稳定的记忆/知识库检索。

  3. 后台浅梦状态机重构:解决后台“做梦系统”在没有新数据时依然按时间轮询空转算力的问题,以及深度调研长任务被误判为空闲而拉起做梦导致的内存崩溃。并解决信息的前后连贯性、持续巡检与关联织网问题。主要是把巡检的逻辑再细化,有新数据进来参与巡检,先打未处理的标签,再在“做梦”的时候和当前的“记忆”、“知识库”、“项目库”通过索引做关联,形成图谱,完成首次的数据“织网”,如果已经完成过的,没有待处理的新数据,就不要继续“做梦”消耗资源了。

  4. 离线会议纪要转录与自动提取:一个配合产品工作的相关功能。为 PM 提供安全的本地录音转文字工具,并自动提取决策和待办事项。可以让系统自动转录信息保存数据库,同时自动关联项目、记忆,形成图谱,让录音信息可以自动成为知识库和记忆的一部分。

  5. 智能日历与主动心跳播报:一个待办提醒的小功能,在原来番茄钟基础上做升级。实现系统从“被动响应”到“主动提醒”的跨越,打通 To-Do 与用户飞书。有提示可以通过飞书CLI推送消息提醒。

  6. 基于规范的高质量文档工作流:另一个产品工作的小工具。解决大模型撰写 PRD 等专业文档时格式散乱、遗漏关键需求的问题,将现有的“文档校验、标注”功能串联为一条全自动的流水线。在原来基础上的一个升级,可以通过对话方式让大模型理解并自动更新到规则中,下次对文档进行校验的时候可以按规则输出。

  7. 全局碎片收件箱与做梦机制升级:将“全局碎片整理”无缝融入并升级现有的做梦机制 (Dream System)。主要是处理飞书随手转发的语音、链接等,将这些作为“对话”完整记录,后续整合到“记忆”中,原来的飞书内容和系统前端的对话是分开处理的,现在合并了。

  8. 独立知识库检索与索引智能体:解决知识库规模扩大后,直接将大量文本塞入主对话导致的上下文爆炸和主模型注意力涣散(Lost in the middle)。主要是是升级“做梦”加强知识库索引能力,把这些交给AI统一处理。

1 个赞

AI助手升级记录 4.23:

  1. 本地化状态机与快照恢复:当前系统在处理长线任务时,过度依赖上下文窗口,一旦发生意外中断,整个任务就断掉了,所以引入了一个本地状态机的机制,如果发生单次超长对话或是被AI认为比较重要的内容,就做个保存(在任务基础上),如果中断,下次启动有个恢复机制,会问用户是否恢复(有点像word编辑一半退出,再回来的那种临时保存)

  2. 记忆降噪与质量打分:现在系统是将所有对话都保存,但什么写入记忆应该是另一套管理方法,为了减少将一些废话、没用的聊天信息作为记忆全保存到记忆数据中,对记忆写入做了优化,在写入记忆前做让AI对数据价值做下“质量打分”,如果觉得分值比较低(价值比较低)就不写入记忆(反正有全量对话保留着)。同时慢慢建立起一个内容质量评分的模型(现在还没怎么对话,一直在升级功能),慢慢调教。

  3. 知识图谱底层存储向 SQLite 迁移:这个是solo建议的,目前系统所有图谱节点和边存储在单一的 json 中。每次织网任务和更新知识库时,都需要将整个文件加载到内存、合并修改后再全量覆写。数据量稍大就会造成严重卡顿或有失效风险。所以就采用内置 SQLite 配合 JSON1 扩展来持久化存储知识图谱。

  4. 技能自生长工具的静默捕捉:就是hermess agent的那套,重复出现的调用或执行时自动生成skill的功能,不多说了。

  5. 工具执行的安全沙箱:一个安全机制,集成 CaMeL Guard,提供运行时网关,用于防御提示词注入和敏感工具的恶意调用,不多说。

  6. 多源外部检索与抓取编排:一套对网络搜索工具和能力的升级。原来只做了使用search_tool的 DuckDuckGo/百度/搜狗三个工具,所以对外部数据检索和数据抓取做了些补充。

  7. 搜索结果本地预过滤:也是针对获取数据的一个优化。对获取的外部信息先在本地对搜索引擎返回的摘要进行相似度打分,去重去无效,这样减少大模型对无效信息的读取浪费token。

  8. 主动唤醒与后台调度:之前做了日历功能,补充了一个利用日历给我做提醒的功能。

  9. 自我蒸馏与模型微调管线:这个也是solo建议的,不知道是不是真管用,就是对“记忆”和本地知识库进行“蒸馏”,升成可用的json,同时定期输出并保存训练集(这得什么电脑才能自我训练……),可以给未来做lora微调准备素材。

  10. 多端统一通讯网关:也是hermess agent的功能之一。做之前我和solo聊说我已经装了飞书cli,hermess那些Telegram、Discord我也没用,这个有用吗?它说有用,这等于是给通讯做了一个统一的底盘,以后调用外部对接都先走这个网关来调度,如果以再有新的渠道,系统就有一个统一的API来处理,不用修改系统了,我觉得挺好就升级上了。

1 个赞

AI助手升级记录 5.6

有一段时间没写更新记录了。最近一直是迭代,内容很琐碎,同时也一直在改bug,目前V6的模型底盘还是在慎重中,可能不再进行升级,转为类似hermess agent的方案。找几个最近升级的重点功能说说吧。

  1. 添加语音转写记录功能,作为产品经理肯定经常进行交流和沟通,”好记性不如烂笔头“,现在都使用录音而不是手记,所以语音转写记录会议,作为项目库内容将十分必要。这块设计了两套方案,一个是安装faster-whisper等本地转写工具自动转写,同时做好语音模型对接的转写,比如现在小米的语音转录接口是免费使用的,不涉密的到是可以考虑。

  2. 完善对知识库的调用管理。原来系统只完成了,如果在对话中我提到需要在知识库中查找,AI才去调用。现在是要从被动改为主动,在进入主回答链路前,增加“知识利用判定层”,我在对话中的提问,系统将会自动触发对记忆、知识库的检索。同时建立好知识库的索引和摘要功能,先找摘要有没有 ,如果有的话再自动判断要不要深入学习知识库内容来回答用户的问题。

  3. 知识图谱2.0。原来的知识图谱是对知识库的信息关联,可以给人看,我也做了前端页面做查看和纠正的功能。但我觉得系统的知识库重点不是给我用的,而是给系统、给AI用的,所以2.0的版本是从“规则关系图”升级为“任务可用的语义关系网”,同时提升AI对知识的理解和应用方法,让知识库更方便AI使用。

  4. 对知识库导入前的数据清洗功能。之前对导入知识库,包括做梦时自动找信息写入知识库,只设计了写知识库和长期保存的功能,但对知识库内容质量一直没做优化,但知识库如果长期使用,无论是数据质量,还是查重和优化都将是长期的任务,但作为个人使用的系统,如果以后信息多,尤其是自动或批量入库的信息多的话,一个人可管不过来,所以做好知识库数据清洗、自动查重”合并“功能,将会让知识库更易用。而且这本身就是给AI用的,知识库干净易用,token还能节省不是。

  5. 系统个性化能力。这个是目前正在设计的一个我认为是很重要的更新,让系统可以有自己的记忆MEMORY.md、自己的思考THOUGHTS.md、自己的灵魂SOUL.MD,但受系统规则约束rules.md,让系统在交互、做任务、做梦过程中,创造”好奇心“和”假设“的能力并把这些作为一个新的待办任务,在完成知识库整理之后,如果他有自己的”想法“就去”做“(完成任务),并记录过程和结果(任务记录,长期保存),自己总结,不断”成长“下去。有”自我“的系统不才是”贾维斯“吗,光有灵魂不能自己思考怎么成[偷笑]

1 个赞

语音转写这个太顶了,我上次开会用录音笔记了一堆,回去整理头都大了,有这功能能省不少事。

是啊,现在有了vibe coding工具,不会代码,问ai怎么解决,开发对应功能工具,或是调用大模型,加入工作流,太方便了。现在还有trae solo桌面端加手机端,只要有空就能开发。