请拥有不降智高级模型的佬友帮忙测试一个问题

问题是:

房间里有 5 个开着的灯泡。
外面有 5 个开关,其中 4 个开关分别对应 4 个灯泡,剩下 1 个开关控制所有灯泡。
你只能进入房间一次。
目标是:找出哪个开关控制所有灯泡。

经过我的测试,在不添加任何额外提示的情况下,没有任何大模型可以完整精确的给出解决方案,几乎所有大模型都是描述混乱、前后逻辑不通。(我个人已测试:讯飞、通义、文心、豆包、智普、GPT4o、公益GPT-o1、公益Claude3.5-sonnet)

2 Likes

所有大模型指的是哪些?

1 Like

讯飞、通义、文心、豆包、智普、4o、公益o1、公益Claude 3.5-sonnet

1 Like

Gemini 1114

1 Like

1 Like

不好意思,论坛不能发AI输出的文字结果,已修改

1 Like

2 Likes

1 Like

没有解答出来,无论是步骤还是后续的观察推理都不完整

1 Like

原来看过类似的问题,好像是弥留之国的爱丽丝 里的。这个问题有解法么

1 Like

违背了只能观察一次这个约束

1 Like

总体思路是正确的,解答也比较有条理,但是对于进屋后步骤的第三点没有细节,仅仅给了方向,如果把这部分展开,结合具体的操作步骤和观察方法就是我想要的答案了

1 Like

有没有可能这是个假命题,AI是机器,不是人类,不能像人一样分析事物的所有面性,比如你问出一个错误的问题

1 Like

没有解答问题,仅仅分类了第5个是不是,对于1~4没有做区分

1 Like

如果能够逻辑完整的表述这是一个伪命题。我是希望AI可以给出一个逻辑自洽且完整的回答,而不是一串混乱的表达

1 Like

1 Like

参考上面o1的解答,大致是这个思路,通过时间+温度等级去判断

1 Like

:bili_040: 模型微调时,是通过上传「问题 + 答案」的对话模式。本质上仍然属于数据库只是比传统数据库多了语义匹配和神经网络啥的那些,但用户经常把大模型当上帝模式用。。

2 Likes

模型给出的, 基本都是适用于three bulbs的回答, 因为训练集就这样
在“不添加额外提示”的前提下, 我觉得现有的LLM是不会真正地推理并给出这个命题是错误的结论, 只能输出一个最大概率tokens的回答

2 Likes

这个余温判断,先不说对不对,反正我是被惊艳到了,我思考这个问题的时候完全没想到这一点,o1和o1 pro都想到了:cold_sweat:


但是我这个o1 pro不知道降智了还是就有问题,他只考虑了三种情况,而且只针对S1和S2开关说了他的判断就结束回答了,我再去试试o1~

o1回答如下

1 Like