今日稀宇科技发布了Minimax-M3模型,在编程和智能体等专业任务上达到了前沿的能力。
并且当前在Opencode上正在免费测试(上下文锁死200K),本次体验也基于Opencode的免费通道进行测试,由于上下文被限制、项目复杂度、提示词、Agent工具等影响,本次体验并不代表模型的全部能力,仅作为个人的主观体验测评!请注意区分!
经过真实对比,汇报一下结果,面对同一环境,同一项目,同一提示词等标准情况下,M3的表现严重不足!
当然也可能受到我项目的复杂度和各种原因的影响,单个项目测评存在偏差。
具体对比模型:Qwen3.7-Max(完胜) vs Minimax-M3(完败)
具体的数据:
| 对比项 | Qwen3.7-Max | Minimax-M3 |
|---|---|---|
| Token消耗量 | 410000 | 1160000 |
| 综合时长 | 16min | 1h03min |
| 达成效果 | 优秀 | 良好 |
| 项目理解 | 优秀 | 差 |
Skill项目理解
首先是针对skill的理解分析,基于我个人参赛的17个skill要求M3进行分析并解析能够迭代的内容,整体来说表现优秀!
Token消耗情况
博客项目理解
基于我个人博客项目要求M3进行分析结果,并输出分析清单,用来和其他模型进行对比是否更加优秀!
先说结论,总体来说输出的结构十分标准,较其他模型更加清晰,可能针对此方面做过专项优化,对于速度方面并没有感受到官方宣传的高速,疑似因为人数较多造成的,在此不做过多推测!
对于准确度来说大概在GLM-5.1和Kimi-K2.6档次,这方面主要源自我个人的感受,不代表模型准确的强度!
Token消耗情况
新项目开发
项目理解在线,针对Plan设计也更加聪明,针对模糊的内容也更加主动询问细节,并且做到了真正理解用户意图,较上一代模型有很大的提升
逻辑题测试(官方平台)
-
镜像难题 失败
-
洗车难题 成功
-
理发难题 成功
不足!
- 思考过程相比于上一代M2.7而言更容易触发全英文
- 整体性能表现没有达到官方宣称的标准
- 对项目目录的理解依旧不足,仍会出现根目录分辨错误的问题
- 在200K上下文情况下,幻觉率有所降低,但是并没有达到第一梯队水准
优点!
- 对于需求理解更加清晰明确,认知也有一定的提升
- 缓存命中似乎有提升,具体还要大量的测试















