GPT-5.5 在 DeepSWE 上排名 #1，这是一个艰难的长时程编码基准 🔥

Nolan · 2026 年6 月 1 日 03:29

70% pass@1 vs Claude Opus 4.8 的 58%。

而且 GPT-5.5 通过以下方式实现：

~2x 更快的运行速度

~1/2 的成本

~1/3 的输出令牌

字面意义上，每美元、每分钟、每任务的智能都更好。