在群里看到个很有意思的测试大模型能力的问题

Gemini生成的结果:

image

所以说期待正式版的o1,还有就是说oai可能会在新模型推出后改一改降智的问题。不过听说oai好像不准备继续使用gpt系列了

也不一定,你看看它的思考过程,好像o1回答有一点不稳定

1 Like

你换我我也推理不出

在这种情况下,o1-preview能够推理出来,这才是厉害的地方

我勒个…………

原问题,o1-preview问2到3次会有一次回答正确


让模型根据结果逆推过程

Temperature调到0~0.2,使用claude-3-5-sonnet-20241022 10次有1到2次可以得到正确的推理过程
4o,o1-mini,gemini-exp-1121都无法还原推理过程(暂时)

图为claude-3-5-sonnet-20241022结果

我怎么昨天好像看过了。。

1 Like

还真是

一个用来测试AI的最新问题(涉及数学、生物、伦理)

image

2 Likes

:sweat_drops: :sweat_drops: :sweat_drops: :sweat_drops:

我的,我是QQ群看到的,没发现。

用deepseek探索版试了一下,结果直接无限循环思考起来了,到现在好几分钟了,还在循环思路


什么鬼,当爹的也有色盲是吧


猜到色盲了,但是没有继续了

这个确实厉害,完全想不到

应该是当作AIGC内容了,请截图发出AI生成内容。

2 Likes

这个推理过程好像也不对吧,答案对了过程错的。重点应该就是染色体

1 Like

冤枉啊,全程手打的清汤大老爷。这个说话方式也不像ai呀。 :smiling_face_with_tear:

3 Likes

这哪里不对,推理不是提到了色盲是x连锁隐性遗传,推理不对答案怎么可能对。


me梅林的o1好水啊呜呜,难道梅林是假的吗