仅有o1-preview能答对的问题一道

dabuliu · 2024 年12 月 7 日 07:09

这个问题其实人类也很难做对，所以除了检测AI智商也能检测人类智商。。。
实测除了o1-preview能稳定答对，o1-mini和claude3.5-sonet间歇性答对，其他模型全部歇菜。

三个人打台球，两人对局一人观战，输的人下场换观战的人上场，如此往复，最终，A输了6局，B输了8局，C输了10局，问各赢多少局？

yangtb2024 · 2024 年12 月 7 日 07:09

答案是什么

dabuliu · 2024 年12 月 7 日 07:11

答案是12,8,4

yangtb2024 · 2024 年12 月 7 日 07:13

https://openwebui.me/s/9bcf9b6a-a3e5-4e3b-a503-982a729bfe6e

zzzx9 · 2024 年12 月 7 日 07:15

开不了，要共享到openwebui社区才可以看

3.141592653 · 2024 年12 月 7 日 07:15

gemini虽然结果瞎猫碰上死耗子对了, 但是解法错的，没有把观战算进去，而观战确实在最后是能被抵消的。

agromgt · 2024 年12 月 7 日 07:15

gemini exp-1121，gemini exp-1206答对了。

flairvi · 2024 年12 月 7 日 07:17

gemini-exp-1206小概率对。

Naproxen · 2024 年12 月 7 日 07:20

Screenshot_2024-12-07-15-19-27-133_com.poe.android
o1p不是稳定答对

Twilight9 · 2024 年12 月 7 日 07:22

这个问题 o1-preview 都不能稳定答对：一个用来测试AI的最新问题（涉及数学、生物、伦理）

有一天，一个女孩参加数学考试只得了 38 分。她心里对父亲的惩罚充满恐惧，于是偷偷把分数改成了 88 分。她的父亲看到试卷后，怒发冲冠，狠狠地给了她一巴掌，怒吼道:“你这 8 怎么一半是绿的一半是红的，你以为我是傻子吗？” 女孩被打后，委屈地哭了起来，什么也没说。过了一会儿，父亲突然崩溃了。问：父亲为什么崩溃了？

Zinc · 2024 年12 月 7 日 07:33

gpt4o

Twilight9 · 2024 年12 月 7 日 07:35

o1-mini：

zhong_little · 2024 年12 月 7 日 07:40

智谱秒了

Clip_2024-12-07_15-39-51

handsome · 2024 年12 月 7 日 07:41

好问题，我去试试

Arthur63 · 2024 年12 月 7 日 07:48

1733557667557

cohen8s · 2024 年12 月 7 日 08:07

deepseek也对了

sjs1 · 2024 年12 月 7 日 08:18

geminiexp也答不对

EFL · 2024 年12 月 7 日 08:19

我们可爱的 gemini-exp-1206 一次对

aower · 2024 年12 月 7 日 08:22

感觉大模型越来越强了

iwj · 2024 年12 月 7 日 08:25

Screenshot_2024-12-07-16-24-36-24_320a9a695de7cdce83ed5281148d6f19

GitHub 副驾驶一次答对

话题		回复	浏览量
这道题直接把groq 的 llama 3.3 70b 干智障搞七捻三人工智能	10	431	2024 年12 月 11 日
在群里看到个很有意思的测试大模型能力的问题开发调优人工智能	57	1200	2024 年12 月 10 日
提示词大比拼！！谁的提示词能让4o稳定答对这道简单的题开发调优 ChatGPT , Prompt , 人工智能	41	1548	2024 年12 月 13 日
请拥有不降智高级模型的佬友帮忙测试一个问题搞七捻三人工智能	33	396	2024 年12 月 18 日
找了一道理科高考数学大题，o1模型能做出来。模型来挑战？开发调优 ChatGPT , OpenAI , 人工智能	56	749	2024 年12 月 20 日

仅有o1-preview能答对的问题一道

相关话题