Qwen3.7-Max 综合效果评测

JasonShane · 2026 年5 月 22 日 03:17

阿里方于5月20日正式发布Qwen3.7-Max旗舰模型，官方宣称能够胜任35小时长程任务，让模型真正成为Agent的智能内核，具备自主规划、持续迭代、跨工具协作的能力。

针对该模型的编程综合能力，我个人进行了简单测试，结果内容如下。
免责声明：模型的测试结果受项目复杂度、本地项目环境、提示词准确度等因素影响，本次测试结果仅为个人主观感受，并且只针对模型的code能力进行评价，不代表模型的综合能力水平。

接入环境：阿里官方千问云平台，官配Qwen3.7-Max模型API调用
模型核心参数：

TRAE接入配置：

模型测试：

针对同一项目、同一环境、同一提示词(隔离对话)的复现程度相对比较优秀，对于项目理解也比较清晰。

表现优秀！
长输出内容在此不展示了，我综合看了一下对于项目理解，问题剖析，输出内容逻辑性而言，比GLM-5.1略胜一筹(单次测试存在偏差，不必刻意追究)

补充数据：

用户55442 · 2026 年5 月 22 日 03:23

可以加入 dp4 和 kimi 2.6 的对比吗？亲亲

思冬丶 · 2026 年5 月 22 日 03:32

所以官方啥时候上 Qwen3.7-Max

JasonShane · 2026 年5 月 22 日 03:45

可以，不过这次Qwen表现还是让我很期待的，以前我都不用Qwen模型，因为整体的稳定性不足，但是3.7似乎还可以

JasonShane · 2026 年5 月 22 日 04:01

我也想知道，因为目前来看，有点东西

斗战 · 2026 年5 月 22 日 05:25

反正，在trae中的，内置的qwen3.6、3.5 在我写前端代码的时候，真的很拉跨。

JasonShane · 2026 年5 月 22 日 06:41

补充部分请求日志

JasonShane · 2026 年5 月 22 日 06:42

这个现象确实存在，3.5和3.6的稳定性不足，有时很正常，有时简单问题都无法理解
这也是我一直不用qwen系列的原因
不过这次3.7效果真的有点意思，希望早日接入