ChatGPT o1(特指正式版,非preview)降智的话,怎么发现?

由刚这个话题想到的

在刚刚的这个话题中,包括我在内的一些佬友发现这两天ChatGPT降智挺严重的。
在我之前使用o1 preview的时候,降智很容易发现,因为我问它的时候,它连1秒的思考都没有,直接就开始自信满满地回答问题了,但是现在用o1正式版,它虽然降智,但是,它也开始思考了tieba_027甚至它读不了我的截图都要先思考4秒钟!
那,除了发现它所提供的答案似是而非以外(这个太有难度了吧),还有什么迹象能够让我们尽快发现它降智了呢?
至少目前来看,读不了图是降智的显著特征之一。

27 Likes

有没有可能o1没被降智
o1就是比o1-preview思考时间短,这就是他的能力所在
不能读图严格意义上不叫降智,叫限制吧应该是
GPT-4o降智的话用十个城市的景区问题就能测试出来,o1很明显,无思考就是降智

1 Like

我不管 :tieba_087:,在我眼里OpenAI这么恶心人就是:poop:,他新出的o1模型不如o1-preview好用,也是:poop:

同感。o1正式版连色盲问题都答不对了。

1 Like

下午用的 o1 跟我早上用的 o1 绝对不是同一个东西,降智太明显了

3 Likes

今天傍晚偶然发现一个很有意思的现象:

关于 9.11和9.8谁大? 这个常见的问题,API 的 o1-previewo1-mini 我 regen 了几次,都是正确答案。但是 ChatGPT 不管是网页版还是 app 版,都有不小的概率答错,这个事情非常神奇。

11 Likes

我今天白天用着还不错,但是我今天白天问的都是比较文科的题,也没有让他读图。晚上是拿了一道数学题的截图给他看,结果他就读不了,而且算出了一个错误的答案。

1 Like

if 降智?
sleep time
return gpt 4o
else
return o1

3 Likes

刚试完,显示思考,思考时间几乎为0

1 Like

我现在用官网的claude感觉很不错,回答问题文本长,而且界面也很好,前端代码还能渲染。要我付费我肯定选claude

看图,API 的智商可以说非常在线。

2 Likes

2个问题都思考了。。

1 Like

感觉o1mini更好

所以我说 ChatGPT 有不小的概率答错。

多问几次试试?基本上现在看是否思考是不好判断降智与否了。

1 Like

降智太坑了,还是把APP退订用 API 吧

我的区分题库助你一臂之力

佬们也可以一起来完善

2 Likes

这结果太不稳定了。相当于你问了 4 次,只对一次?

1 Like

一个是擅长降智,一个是擅长封号tieba_008

4 Likes