缓存命中率的天壤之别，支持 OpenAI Responses API 格式而不是只有 OpenAI Chat Completions 格式

用户58404 · 2026 年5 月 24 日 00:32

支持 OpenAI Responses API 格式而不是只有 OpenAI Chat Completions 格式

您好，我是 Trae 的重度用户，非常认可产品的编程能力和交互体验。今天想提出一个对所有使用第三方 API 中转 / 自建服务的用户来说至关重要的功能建议：请尽快支持 OpenAI Responses API 新一代标准，而不是仅支持 Chat Completions 通用标准。

在接入各类 API 站（包括国内主流中转平台和自建网关）时，我们发现两种 API 标准的缓存性能存在本质差异：

这不是细微的性能差异，而是 **“能用” 和 “完全不能用”** 的区别。

对于使用第三方 API 中转或自建服务的用户来说，5% 的缓存命中率意味着：

成本飙升：90% 缓存命中可将 API 调用成本降低 90%，而 5% 命中率意味着几乎所有请求都需要全额计费。对于每天有大量编程请求的用户来说，这可能是每月数百甚至数千元的成本差异
延迟剧增：缓存命中可将响应时间从数百毫秒降至几十毫秒，低命中率导致每次请求都需要完整的模型推理，严重影响编程体验
系统不稳定：高并发下后端服务容易过载崩溃，出现频繁超时和错误

OpenAI API 协议现已成为全球大模型交互的事实行业标准，目前主要包含两代标准：

Chat Completions API：2023 年推出的通用标准，被绝大多数开源大模型、国产大模型和 API 平台支持。但它本质上是为无状态聊天机器人设计的，每次请求都需要客户端传输完整的消息历史数组，服务器不保存任何对话状态。
Responses API：OpenAI 于 2025 年 3 月 11 日正式推出的新一代推荐标准，官方明确要求 “所有新项目都应使用 Responses API”。它是为智能体 (Agent) 时代设计的统一接口，融合了 Chat Completions 的简洁性和 Assistants API 的强大功能。

Responses API 引入了previous_response_id这一核心参数，彻底改变了上下文管理方式：

这种设计带来了数量级的缓存性能提升：

服务器可以精确缓存每个response_id对应的完整上下文
多轮对话中，只有新增的用户输入需要传输和处理
长系统提示只需要在第一次请求时发送，后续所有轮次都可以被缓存
OpenAI 官方内部测试显示，Responses API 的缓存利用率比 Chat Completions 高40%-80%，在编程等长上下文场景下甚至可以达到 90% 以上

对于 GPT-5 等新一代推理模型，Responses API 能够保留模型的内部推理状态跨多轮调用，这是 Chat Completions 无法做到的：

Responses API 将工具调用深度整合进了 API 的核心设计中：

Responses API 原生支持文本、图像等多种输入类型，未来还将支持音频和视频，提供了一个统一的多模态交互接口。

Responses API 已经迅速成为行业新标准：

Open Responses 规范：OpenAI 联合 Hugging Face、Nvidia、Vercel、OpenRouter 等主要生态系统参与者创建了 Open Responses 开放规范，旨在实现智能体式 AI 工作流的标准化
主流平台支持：Ollama、vLLM、LM Studio 等本地推理引擎，以及 Anthropic、Google Gemini 等主要模型提供商都已经宣布支持 Open Responses 规范
官方路线图：OpenAI 已经宣布 Assistants API 将于 2026 年 8 月 26 日正式废弃，未来所有新功能都将只在 Responses API 上提供
模型专属功能：GPT-5 的计算机使用能力、深度研究模式等高级功能只能通过 Responses API 访问，Chat Completions 将不再支持这些新特性

请在 Trae 的 API 配置中增加对 OpenAI Responses API 新一代标准的支持：

允许用户选择使用/v1/responses端点而非强制使用/v1/chat/completions
适配 Responses API 的参数体系（如max_output_tokens替代max_completion_tokens，instructions替代system角色消息）
实现基于previous_response_id的有状态上下文管理
支持prompt_cache_key和prompt_cache_retention等缓存优化参数
预留对未来 Responses API 新功能的扩展接口

这一功能将极大提升 Trae 对第三方 API 服务的兼容性，让所有使用中转或自建服务的用户都能获得与官方 API 相当的性能和成本体验，同时也使 Trae 能够跟上大模型 API 技术的发展趋势，在智能体时代保持领先地位。

感谢您的考虑，期待 Trae 变得更好！

用户8261 · 2026 年5 月 24 日 09:42

好提议，得看国际版多久支持，毕竟都接入gpt了

汤圆 · 2026 年5 月 24 日 15:56

好提议投一票

耿家威PhpJavaGo用户17 · 2026 年5 月 24 日 19:15

好提议投一票

爱尝试的小李 · 2026 年5 月 25 日 15:25

好建议，同意楼主