仅有o1-preview能答对的问题一道

这个问题其实人类也很难做对,所以除了检测AI智商也能检测人类智商。。。
实测除了o1-preview能稳定答对,o1-mini和claude3.5-sonet间歇性答对,其他模型全部歇菜。

三个人打台球,两人对局一人观战,输的人下场换观战的人上场,如此往复,最终,A输了6局,B输了8局,C输了10局,问各赢多少局?

9 个赞

答案是什么tieba_015

1 个赞

答案是12,8,4

1 个赞

https://openwebui.me/s/9bcf9b6a-a3e5-4e3b-a503-982a729bfe6e

1 个赞

开不了,要共享到openwebui社区才可以看

image

gemini虽然结果瞎猫碰上死耗子对了, 但是解法错的,没有把观战算进去,而观战确实在最后是能被抵消的。

1 个赞

gemini exp-1121,gemini exp-1206答对了。

1 个赞

gemini-exp-1206小概率对。image

1 个赞

Screenshot_2024-12-07-15-19-27-133_com.poe.android
o1p不是稳定答对

2 个赞

这个问题 o1-preview 都不能稳定答对:一个用来测试AI的最新问题(涉及数学、生物、伦理)

有一天,一个女孩参加数学考试只得了 38 分。她心里对父亲的惩罚充满恐惧,于是偷偷把分数改成了 88 分。她的父亲看到试卷后,怒发冲冠,狠狠地给了她一巴掌,怒吼道:“你这 8 怎么一半是绿的一半是红的,你以为我是傻子吗?” 女孩被打后,委屈地哭了起来,什么也没说。过了一会儿,父亲突然崩溃了。问:父亲为什么崩溃了?
2 个赞

image
gpt4o

2 个赞

o1-mini:image

智谱秒了

Clip_2024-12-07_15-39-51

好问题,我去试试

1733557667557

deepseek也对了

geminiexp也答不对

图片
我们可爱的 gemini-exp-1206 一次对

感觉大模型越来越强了

Screenshot_2024-12-07-16-24-36-24_320a9a695de7cdce83ed5281148d6f19

GitHub 副驾驶一次答对