Qwen3.7-Max 综合效果评测

阿里方于5月20日正式发布Qwen3.7-Max旗舰模型,官方宣称能够胜任35小时长程任务,让模型真正成为Agent的智能内核,具备自主规划、持续迭代、跨工具协作的能力。


针对该模型的编程综合能力,我个人进行了简单测试,结果内容如下。
免责声明:模型的测试结果受项目复杂度、本地项目环境、提示词准确度等因素影响,本次测试结果仅为个人主观感受,并且只针对模型的code能力进行评价,不代表模型的综合能力水平。

接入环境:阿里官方千问云平台,官配Qwen3.7-Max模型API调用
模型核心参数:

TRAE接入配置:

模型测试:

  • 同项目同提示词复现程度:优秀


针对同一项目、同一环境、同一提示词(隔离对话)的复现程度相对比较优秀,对于项目理解也比较清晰。

  • 同项目同提示词不同模型对比(GLM-5.1 vs Qwen3.7-Max)

表现优秀!
长输出内容在此不展示了,我综合看了一下对于项目理解,问题剖析,输出内容逻辑性而言,比GLM-5.1略胜一筹(单次测试存在偏差,不必刻意追究)

补充数据:

2 个赞

可以加入 dp4 和 kimi 2.6 的对比吗?亲亲

2 个赞

所以官方啥时候上 Qwen3.7-Max

1 个赞

可以,不过这次Qwen表现还是让我很期待的,以前我都不用Qwen模型,因为整体的稳定性不足,但是3.7似乎还可以

1 个赞

我也想知道,因为目前来看,有点东西

1 个赞

反正,在trae中的,内置的qwen3.6、3.5 在我写前端代码的时候,真的很拉跨。

1 个赞

补充部分请求日志

1 个赞

这个现象确实存在,3.5和3.6的稳定性不足,有时很正常,有时简单问题都无法理解
这也是我一直不用qwen系列的原因
不过这次3.7效果真的有点意思,希望早日接入

1 个赞