我们用AI做事情面临的很大一个问题是上下文不够长,偶然的机会发现了一篇论文,论文链接如下:https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents 大概是讲的把大任务拆分成若干小任务,每次做一个小任务,并留痕迹,下次再做任务时可以阅读痕迹。来实现完成长任务的处理。
用豆包理解一下会变成这样:
一、先把论文核心浓缩成 4 句话
-
长期运行 Agent 最大问题:每次重启都会失忆,不知道上次干到哪、干成啥样。
-
解决办法:分两个角色 ——初始化 Agent + 执行 Agent。
-
关键机制:
-
固定环境(init.sh)
-
进度日志(progress.txt)
-
功能清单(feature_list.json)
-
Git 提交记录
-
-
每次只干一件事,干完必须留干净状态,下次才能接着干。
二、按论文思路 → 给你构建一套「万能长期做事体系」
1. 角色分工(完全照搬 Anthropic)
① 初始化 Agent(只跑第一次)
任务:
-
把整个任务拆成可验收的小功能点
-
创建进度文件
-
创建功能清单
-
生成启动 / 恢复脚本
-
做第一次 Git 提交
② 执行 Agent(每次都跑)
任务:
-
读进度 → 读功能清单 → 选一个未完成项
-
只做这一个
-
做完测试 → 写进度 → Git 提交
-
保持环境干净,不烂尾、不半拉子
请按照 Anthropic 官方《Effective harnesses for long-running agents》的长期运行Agent体系,为我构建一套可长期执行、可续跑、不烂尾、可回溯的做事流程,严格遵守以下规则:
-
先做初始化:
- 把任务拆成可验收的功能清单,保存为 feature_list.json
- 创建进度日志 progress.txt
- 创建恢复脚本 init.sh
- 所有功能默认未完成
-
每次执行只做一个功能,不贪多
-
每次做完必须验证,确保是干净可合并的状态
-
每次结束必须更新进度与功能清单
-
下次启动自动续跑,不需要重复理解需求
我现在的任务:
测试并优化“确认并保存订单”弹窗:
- 弹窗左右太窄,需要扩大
- 商品输入框内容被遮挡,必须可见
- 全功能测试:新建、填写、保存、编辑、回显
- 测试备份与恢复功能
现在按 long-running agent 标准流程开始执行。
三、这套体系的威力
- 不会半途而废
- 不会重复干活
- 不会失忆
- 每次只干一件事,质量极高
- 随时关闭、随时重启、随时续跑
- 完全适合你要的:系统测试、UI 优化、功能验证
只需要发送下一步就能完成框架的大体搭建。
当然做出来的会有很多BUG,只是后续修复的后话了。

