有没有测试o3mini是否降智的问题

如题 这两天用了几个镜像站 但思考时间很短 我怀疑是降智了 有没有佬友有能测试的问题

2 个赞

他降智也分等级的,你问10.2和10.11哪个大,然后看看是不是中文思考

发你好就行了
首先看是不是中文思考
然后看显示的是已推理还是reason
最后看是reason ‘about’ or ‘for’

通过重重磨难 最后是reason about就成功地没有降智

降智还有显著特征 就是思考两轮或一轮 时长6秒以内
不过发你好的话这一点没用 因为发你好他会0秒思考

*似乎发你好可能触发AI欺软怕硬机制(简单题“认真”回答 难题摆烂 ) 建议额外随便找道难题 再次验证 观察点还是上面的内容

3 个赞

看来金主的站是降智了 :bili_018:

1 个赞

问数字比大小就看的出来了 :tieba_087:

1 个赞

这是哪个站

aicnn.cn 站内金主的 :lark_029:

记得他好像有售后啥的,@他来解决下

感谢感谢 测出来了Reasoned about greeting in Chinese,持续 一秒 :tieba_075: :tieba_087:

1 个赞

那这轮问答应该算没降智,可能你的问题太简单了)

1 个赞


这个站的确降智了

中文思考大概率降了


没降智应该是这样的,
问题是这个

Sroan 有一个私人的保险箱,密码是 7 个 不同的数字。 Guess #1: 9062437 Guess #2: 8593624 Guess #3: 4286915 Guess #4: 3450982 Sroan 说: 你们 4 个人每人都猜对了位置不相邻的两个数字。 (只有 “位置及其对应的数字” 都对才算对) 问:密码是什么?

答案是4053927

1 个赞

欺软怕硬 是吧 :rofl:

此题只有唯一解吗

:heavy_check_mark:是的。
image
代码枚举出来只有一个

今天发现中文思考也不一定降智了,不知道是好事还是坏事,同样的问题用中文思考了两分钟,也答对了: