Minimax-M3首批体验测评!

今日稀宇科技发布了Minimax-M3模型,在编程和智能体等专业任务上达到了前沿的能力。
并且当前在Opencode上正在免费测试(上下文锁死200K),本次体验也基于Opencode的免费通道进行测试,由于上下文被限制、项目复杂度、提示词、Agent工具等影响,本次体验并不代表模型的全部能力,仅作为个人的主观体验测评!请注意区分!

经过真实对比,汇报一下结果,面对同一环境,同一项目,同一提示词等标准情况下,M3的表现严重不足!
当然也可能受到我项目的复杂度和各种原因的影响,单个项目测评存在偏差。
具体对比模型:Qwen3.7-Max(完胜) vs Minimax-M3(完败)
具体的数据:

对比项 Qwen3.7-Max Minimax-M3
Token消耗量 410000 1160000
综合时长 16min 1h03min
达成效果 优秀 良好
项目理解 优秀

Skill项目理解

首先是针对skill的理解分析,基于我个人参赛的17个skill要求M3进行分析并解析能够迭代的内容,整体来说表现优秀



Token消耗情况

博客项目理解

基于我个人博客项目要求M3进行分析结果,并输出分析清单,用来和其他模型进行对比是否更加优秀!
先说结论,总体来说输出的结构十分标准,较其他模型更加清晰,可能针对此方面做过专项优化,对于速度方面并没有感受到官方宣传的高速,疑似因为人数较多造成的,在此不做过多推测!
对于准确度来说大概在GLM-5.1和Kimi-K2.6档次,这方面主要源自我个人的感受,不代表模型准确的强度!




Token消耗情况

新项目开发

项目理解在线,针对Plan设计也更加聪明,针对模糊的内容也更加主动询问细节,并且做到了真正理解用户意图,较上一代模型有很大的提升


逻辑题测试(官方平台)

不足!

  • 思考过程相比于上一代M2.7而言更容易触发全英文
  • 整体性能表现没有达到官方宣称的标准
  • 对项目目录的理解依旧不足,仍会出现根目录分辨错误的问题
  • 在200K上下文情况下,幻觉率有所降低,但是并没有达到第一梯队水准

优点!

  • 对于需求理解更加清晰明确,认知也有一定的提升
  • 缓存命中似乎有提升,具体还要大量的测试
2 个赞

我还是去国际版吧

1 个赞

好速度!!

1 个赞

当前新项目仍在运行中,还未结束,测评帖先放出,待项目运行结束之后更新

1 个赞

学习了!!!

1 个赞

就是说,逻辑有点问题,但还能用?没有牛吹的那么高。重点还是在多agent并行和长程任务的突破?

1 个赞

是的,多agent达到T1标准了,但是总体来说水分较大,不知道是否与上下文限制和当前人数有关系,具体标准还是要过几天成熟了才可以

1 个赞

免费期就是他们收测试数据的时间。还得等稳定之后。测评打分感觉水平好大。

1 个赞

1 个赞

目前出现最大问题,M3对自己写的项目评价为差

1 个赞

经过真实对比,汇报一下结果,面对同一环境,同一项目,同一提示词等标准情况下,M3的表现严重不足!
当然也可能受到我项目的复杂度和各种原因的影响,单个项目测评存在偏差。
具体对比模型:Qwen3.7-Max(完胜) vs Minimax-M3(完败)
具体的数据:

对比项 Qwen3.7-Max Minimax-M3
Token消耗量 410000 1160000
综合时长 16min 1h03min
达成效果 优秀 良好
项目理解 优秀
1 个赞

看了一下其他平台的测试。确定我这边没有评价错误,M3确实拉完了

1 个赞

太牛了Jason哥

1 个赞

所以最终 Qwen3.7-Max 完胜吗?

1 个赞

完胜,还是虐杀版本,是我一开始M3期待值太高了

2 个赞

刚刚测试完,M3编程理解能力不如Mimo-V2.5-Pro

2 个赞

还是那么拉的吗

1 个赞

Qwen3.7-Max 用的什么agent测的?二者费用差别如何?

1 个赞

缓存命中的测试结果怎么样

1 个赞