支持 OpenAI Responses API 格式而不是只有 OpenAI Chat Completions 格式
您好,我是 Trae 的重度用户,非常认可产品的编程能力和交互体验。今天想提出一个对所有使用第三方 API 中转 / 自建服务的用户来说至关重要的功能建议:请尽快支持 OpenAI Responses API 新一代标准,而不是仅支持 Chat Completions 通用标准。
核心问题:缓存命中率的天壤之别
在接入各类 API 站(包括国内主流中转平台和自建网关)时,我们发现两种 API 标准的缓存性能存在本质差异:
-
Responses API(新一代标准):在多轮对话、长系统提示的典型编程场景下,缓存命中率稳定在90% 以上
-
Chat Completions API(通用标准):在完全相同的使用场景和请求内容下,缓存命中率不足 5%
这不是细微的性能差异,而是 **“能用” 和 “完全不能用”** 的区别。
低缓存命中率带来的灾难性影响
对于使用第三方 API 中转或自建服务的用户来说,5% 的缓存命中率意味着:
-
成本飙升:90% 缓存命中可将 API 调用成本降低 90%,而 5% 命中率意味着几乎所有请求都需要全额计费。对于每天有大量编程请求的用户来说,这可能是每月数百甚至数千元的成本差异
-
延迟剧增:缓存命中可将响应时间从数百毫秒降至几十毫秒,低命中率导致每次请求都需要完整的模型推理,严重影响编程体验
-
系统不稳定:高并发下后端服务容易过载崩溃,出现频繁超时和错误
技术背景:为什么 Responses API 是行业未来
OpenAI API 协议现已成为全球大模型交互的事实行业标准,目前主要包含两代标准:
两代标准的本质区别
-
Chat Completions API:2023 年推出的通用标准,被绝大多数开源大模型、国产大模型和 API 平台支持。但它本质上是为无状态聊天机器人设计的,每次请求都需要客户端传输完整的消息历史数组,服务器不保存任何对话状态。
-
Responses API:OpenAI 于 2025 年 3 月 11 日正式推出的新一代推荐标准,官方明确要求 “所有新项目都应使用 Responses API”。它是为智能体 (Agent) 时代设计的统一接口,融合了 Chat Completions 的简洁性和 Assistants API 的强大功能。
Responses API 的核心技术优势
1. 革命性的有状态缓存机制(最关键优势)
Responses API 引入了previous_response_id这一核心参数,彻底改变了上下文管理方式:
-
旧模式:Chat Completions 需要客户端每次都把整本 “故事书”(完整聊天历史)发给服务器,服务器每次都要从头开始阅读和处理
-
新模式:Responses API 只需要客户端告诉服务器 “接着上次那个 ID 的故事继续写”,服务器端已经保存了完整的上下文和推理状态
这种设计带来了数量级的缓存性能提升:
-
服务器可以精确缓存每个
response_id对应的完整上下文 -
多轮对话中,只有新增的用户输入需要传输和处理
-
长系统提示只需要在第一次请求时发送,后续所有轮次都可以被缓存
-
OpenAI 官方内部测试显示,Responses API 的缓存利用率比 Chat Completions 高40%-80%,在编程等长上下文场景下甚至可以达到 90% 以上
2. 原生支持推理状态保留
对于 GPT-5 等新一代推理模型,Responses API 能够保留模型的内部推理状态跨多轮调用,这是 Chat Completions 无法做到的:
-
GPT-5 在 Responses API 下的 SWE-bench 编程基准测试得分比 Chat Completions 高 3%
-
TAUBench 智能体基准测试得分高 5%
-
模型不会 “中途失忆”,能够更好地完成复杂的多步骤任务
3. 内置统一工具调用框架
Responses API 将工具调用深度整合进了 API 的核心设计中:
-
支持一次请求内调用多个工具,包括网络搜索、文件搜索、代码解释器、计算机使用和远程 MCP 服务器
-
工具调用由服务器端统一管理,减少了客户端与服务器之间的往返次数
-
所有工具调用的状态也会被自动缓存,进一步提升性能
4. 统一的多模态支持
Responses API 原生支持文本、图像等多种输入类型,未来还将支持音频和视频,提供了一个统一的多模态交互接口。
行业广泛采用与未来趋势
Responses API 已经迅速成为行业新标准:
-
Open Responses 规范:OpenAI 联合 Hugging Face、Nvidia、Vercel、OpenRouter 等主要生态系统参与者创建了 Open Responses 开放规范,旨在实现智能体式 AI 工作流的标准化
-
主流平台支持:Ollama、vLLM、LM Studio 等本地推理引擎,以及 Anthropic、Google Gemini 等主要模型提供商都已经宣布支持 Open Responses 规范
-
官方路线图:OpenAI 已经宣布 Assistants API 将于 2026 年 8 月 26 日正式废弃,未来所有新功能都将只在 Responses API 上提供
-
模型专属功能:GPT-5 的计算机使用能力、深度研究模式等高级功能只能通过 Responses API 访问,Chat Completions 将不再支持这些新特性
建议方案
请在 Trae 的 API 配置中增加对 OpenAI Responses API 新一代标准的支持:
-
允许用户选择使用
/v1/responses端点而非强制使用/v1/chat/completions -
适配 Responses API 的参数体系(如
max_output_tokens替代max_completion_tokens,instructions替代system角色消息) -
实现基于
previous_response_id的有状态上下文管理 -
支持
prompt_cache_key和prompt_cache_retention等缓存优化参数 -
预留对未来 Responses API 新功能的扩展接口
这一功能将极大提升 Trae 对第三方 API 服务的兼容性,让所有使用中转或自建服务的用户都能获得与官方 API 相当的性能和成本体验,同时也使 Trae 能够跟上大模型 API 技术的发展趋势,在智能体时代保持领先地位。
感谢您的考虑,期待 Trae 变得更好!