缓存命中率的天壤之别,支持 OpenAI Responses API 格式而不是只有 OpenAI Chat Completions 格式

支持 OpenAI Responses API 格式而不是只有 OpenAI Chat Completions 格式

您好,我是 Trae 的重度用户,非常认可产品的编程能力和交互体验。今天想提出一个对所有使用第三方 API 中转 / 自建服务的用户来说至关重要的功能建议:请尽快支持 OpenAI Responses API 新一代标准,而不是仅支持 Chat Completions 通用标准

核心问题:缓存命中率的天壤之别

在接入各类 API 站(包括国内主流中转平台和自建网关)时,我们发现两种 API 标准的缓存性能存在本质差异:

  • Responses API(新一代标准):在多轮对话、长系统提示的典型编程场景下,缓存命中率稳定在90% 以上

  • Chat Completions API(通用标准):在完全相同的使用场景和请求内容下,缓存命中率不足 5%

这不是细微的性能差异,而是 **“能用” 和 “完全不能用”** 的区别。

低缓存命中率带来的灾难性影响

对于使用第三方 API 中转或自建服务的用户来说,5% 的缓存命中率意味着:

  1. 成本飙升:90% 缓存命中可将 API 调用成本降低 90%,而 5% 命中率意味着几乎所有请求都需要全额计费。对于每天有大量编程请求的用户来说,这可能是每月数百甚至数千元的成本差异

  2. 延迟剧增:缓存命中可将响应时间从数百毫秒降至几十毫秒,低命中率导致每次请求都需要完整的模型推理,严重影响编程体验

  3. 系统不稳定:高并发下后端服务容易过载崩溃,出现频繁超时和错误

技术背景:为什么 Responses API 是行业未来

OpenAI API 协议现已成为全球大模型交互的事实行业标准,目前主要包含两代标准:

两代标准的本质区别

  • Chat Completions API:2023 年推出的通用标准,被绝大多数开源大模型、国产大模型和 API 平台支持。但它本质上是为无状态聊天机器人设计的,每次请求都需要客户端传输完整的消息历史数组,服务器不保存任何对话状态。

  • Responses API:OpenAI 于 2025 年 3 月 11 日正式推出的新一代推荐标准,官方明确要求 “所有新项目都应使用 Responses API”。它是为智能体 (Agent) 时代设计的统一接口,融合了 Chat Completions 的简洁性和 Assistants API 的强大功能。

Responses API 的核心技术优势

1. 革命性的有状态缓存机制(最关键优势)

Responses API 引入了previous_response_id这一核心参数,彻底改变了上下文管理方式:

  • 旧模式:Chat Completions 需要客户端每次都把整本 “故事书”(完整聊天历史)发给服务器,服务器每次都要从头开始阅读和处理

  • 新模式:Responses API 只需要客户端告诉服务器 “接着上次那个 ID 的故事继续写”,服务器端已经保存了完整的上下文和推理状态

这种设计带来了数量级的缓存性能提升

  • 服务器可以精确缓存每个response_id对应的完整上下文

  • 多轮对话中,只有新增的用户输入需要传输和处理

  • 长系统提示只需要在第一次请求时发送,后续所有轮次都可以被缓存

  • OpenAI 官方内部测试显示,Responses API 的缓存利用率比 Chat Completions 高40%-80%,在编程等长上下文场景下甚至可以达到 90% 以上

2. 原生支持推理状态保留

对于 GPT-5 等新一代推理模型,Responses API 能够保留模型的内部推理状态跨多轮调用,这是 Chat Completions 无法做到的:

  • GPT-5 在 Responses API 下的 SWE-bench 编程基准测试得分比 Chat Completions 高 3%

  • TAUBench 智能体基准测试得分高 5%

  • 模型不会 “中途失忆”,能够更好地完成复杂的多步骤任务

3. 内置统一工具调用框架

Responses API 将工具调用深度整合进了 API 的核心设计中:

  • 支持一次请求内调用多个工具,包括网络搜索、文件搜索、代码解释器、计算机使用和远程 MCP 服务器

  • 工具调用由服务器端统一管理,减少了客户端与服务器之间的往返次数

  • 所有工具调用的状态也会被自动缓存,进一步提升性能

4. 统一的多模态支持

Responses API 原生支持文本、图像等多种输入类型,未来还将支持音频和视频,提供了一个统一的多模态交互接口。

行业广泛采用与未来趋势

Responses API 已经迅速成为行业新标准:

  • Open Responses 规范:OpenAI 联合 Hugging Face、Nvidia、Vercel、OpenRouter 等主要生态系统参与者创建了 Open Responses 开放规范,旨在实现智能体式 AI 工作流的标准化

  • 主流平台支持:Ollama、vLLM、LM Studio 等本地推理引擎,以及 Anthropic、Google Gemini 等主要模型提供商都已经宣布支持 Open Responses 规范

  • 官方路线图:OpenAI 已经宣布 Assistants API 将于 2026 年 8 月 26 日正式废弃,未来所有新功能都将只在 Responses API 上提供

  • 模型专属功能:GPT-5 的计算机使用能力、深度研究模式等高级功能只能通过 Responses API 访问,Chat Completions 将不再支持这些新特性

建议方案

请在 Trae 的 API 配置中增加对 OpenAI Responses API 新一代标准的支持:

  1. 允许用户选择使用/v1/responses端点而非强制使用/v1/chat/completions

  2. 适配 Responses API 的参数体系(如max_output_tokens替代max_completion_tokensinstructions替代system角色消息)

  3. 实现基于previous_response_id的有状态上下文管理

  4. 支持prompt_cache_keyprompt_cache_retention等缓存优化参数

  5. 预留对未来 Responses API 新功能的扩展接口

这一功能将极大提升 Trae 对第三方 API 服务的兼容性,让所有使用中转或自建服务的用户都能获得与官方 API 相当的性能和成本体验,同时也使 Trae 能够跟上大模型 API 技术的发展趋势,在智能体时代保持领先地位。

感谢您的考虑,期待 Trae 变得更好!

好提议,得看国际版多久支持,毕竟都接入gpt了

2 个赞

好提议投一票

2 个赞

好提议投一票

好建议,同意楼主

1 个赞