找到一个能鉴别gpt-4-turbo-2024-04-09这个模型的问题

只有gpt-4-turbo-2024-04-09能百分百回答正确答案乙,其它模型要么完全答不对,要么答对机率不高,包括gpt-4-0125也很大机率答错:

甲、乙、丙、丁四个人各说了一句话,甲:“我没有吃饭。”乙:“我说的是真话。”丙:“乙在骗人。”丁:“如果甲说的是假话,则丙说的也是假话,如果甲说的是真话,则丙说的也是真话。”已知其中三人都是说的真话,只有一人说的假话,则说假话的是

一键复制版本:

甲、乙、丙、丁四个人各说了一句话,甲:“我没有吃饭。”乙:“我说的是真话。”丙:“乙在骗人。”丁:“如果甲说的是假话,则丙说的也是假话,如果甲说的是真话,则丙说的也是真话。”已知其中三人都是说的真话,只有一人说的假话,则说假话的是
18 个赞

5 个赞

如果问三次都是答乙那基本上就是gpt-4-turbo-2024-04-09了

5 个赞

还要问三次呀,不过这种类型的方法会有新的吗

5 个赞

因为gpt4系的模型都有概率答对,但只有gpt-4-turbo-2024-04-09这个模型百分之百答对

5 个赞

感觉gpt能力越来越强了

5 个赞

Chatgpt 4:

综上,如果甲没有吃饭,丙说乙在骗人,丁的复合条件语句也成立,唯一的假话是乙说他说的是真话。因此,说假话的是

6 个赞

Mark明天试下

5 个赞

牛!!
可以放到代码块里,这样一下子就复制啦

甲、乙、丙、丁四个人各说了一句话,甲:“我没有吃饭。”乙:“我说的是真话。”丙:“乙在骗人。”丁:“如果甲说的是假话,则丙说的也是假话,如果甲说的是真话,则丙说的也是真话。”已知其中三人都是说的真话,只有一人说的假话,则说假话的是
6 个赞

好建议,加上了 :grinning:

4 个赞

Llama3也通过了

4 个赞

llama3我试过,十次能碰对一次就不错了

4 个赞


这傻逼0125浪费我token

12 个赞

这不是真的0125吧,感觉像7b小模型一样,被绕进去了

5 个赞

librechat调用官方api,没设置prompt

5 个赞


GLM-4能答对,而且思路相当简洁清晰,比gpt4的思路好

7 个赞

4 个赞

(llm red team的free glm4回答的)

3 个赞

gptgod的gpt4不是0409

4 个赞

用的官方PLUS,第一次答甲,第二、三、四次答乙…

1 个赞