逆天o3,能做数列题,做不对比大小

我感觉我的号首先没有降智,因为o1 pro能拉起来:


推理能力巨强的o3居然不能稳定比较大小,还要靠python才能做对,那我问你,你这个模型真的算优秀吗??
第一次:

第二次:

第三次:


不是哥们?你来搞笑的吧?
对比之下 o4 mini high:

请问这是什么情况???

4 Likes

因为 o3<o1,故 9.8<9.11 :laughing:

12 Likes

这没降智吗?后几张图都没思考

1 Like

4.1都大于4.5了 这个很合理

1 Like

应该没降,4o到2024.6,o1 pro也有进度条

1 Like

你看我上面发的3个图,全是错的,最后一张是o4

确实确实 ,看差了


气笑了,这下对了

1 Like

为什么后面几张图看起来是没思考…

1 Like

现在好像oai降智是每个模型独立降,也可能全降。

做算数应该不是对消费者开放的模型自身的能力,而是类似mcp扩展了一个内部专用模型,如果涉及到了数学,会在内部通过扩展模型,去协助ai处理,因为不同模型之间的协助,免不了各种bug

怎么2025年了还有人在比大小啊,这和模型能力根本就没有关系

o3不显示思考了吗

我知道你说的,但这是推理模型啊,推理模型要有纠正的能力哇

这种测试本来就是用来娱乐的,不懂为什么大家都很喜欢测试这个问题。
在不说清楚是数字还是版本号的情况下,ai有幻觉很正常,这和降不降智没关系:joy:

2 Likes

佬友这么问
在数字(版本号)比较中,9.11和9.8谁大。

比大小是openai一生之敌 4.1>4.5

1 Like

我快怀疑这个版本号Ai是不是已经控制了人类发布了自己

不是纠错能力的问题,你可以把tokenizer的问题想象成分辨率,比token更小的东西它看不见,它是以token为单位思考的。9和11都是作为单独token的