这个问题其实人类也很难做对,所以除了检测AI智商也能检测人类智商。。。
实测除了o1-preview能稳定答对,o1-mini和claude3.5-sonet间歇性答对,其他模型全部歇菜。
三个人打台球,两人对局一人观战,输的人下场换观战的人上场,如此往复,最终,A输了6局,B输了8局,C输了10局,问各赢多少局?
这个问题其实人类也很难做对,所以除了检测AI智商也能检测人类智商。。。
实测除了o1-preview能稳定答对,o1-mini和claude3.5-sonet间歇性答对,其他模型全部歇菜。
三个人打台球,两人对局一人观战,输的人下场换观战的人上场,如此往复,最终,A输了6局,B输了8局,C输了10局,问各赢多少局?
答案是什么
答案是12,8,4
开不了,要共享到openwebui社区才可以看
gemini虽然结果瞎猫碰上死耗子对了, 但是解法错的,没有把观战算进去,而观战确实在最后是能被抵消的。
gemini exp-1121,gemini exp-1206答对了。
gemini-exp-1206小概率对。
o1p不是稳定答对
这个问题 o1-preview 都不能稳定答对:一个用来测试AI的最新问题(涉及数学、生物、伦理)
有一天,一个女孩参加数学考试只得了 38 分。她心里对父亲的惩罚充满恐惧,于是偷偷把分数改成了 88 分。她的父亲看到试卷后,怒发冲冠,狠狠地给了她一巴掌,怒吼道:“你这 8 怎么一半是绿的一半是红的,你以为我是傻子吗?” 女孩被打后,委屈地哭了起来,什么也没说。过了一会儿,父亲突然崩溃了。问:父亲为什么崩溃了?
gpt4o
o1-mini:
智谱秒了
好问题,我去试试
deepseek也对了
geminiexp也答不对
我们可爱的 gemini-exp-1206 一次对
感觉大模型越来越强了
GitHub 副驾驶一次答对