大家可以测一下trae内置的不同模型

突发奇想的一个题目:现在有10000个人,分为100组,每组进行竞争,排出1-100的名次,然后把每组对应的名次再放到一组竞争,如此往复会怎么样,排几轮能得到最终排名

测试的不同模型,trae的gemini 3.1和codex 的gpt5.4能回答正确,国内的豆包客户端,千问,deepseek的回答都欠缺

第一个用的豆包,但是很遗憾回答错误

gpt5.4也回答正确

gemini 3.1回答正确

deepseek的好像陷入了思维风暴,但最终输出也有问题
大家可以自行测试