由刚这个话题想到的
在刚刚的这个话题中,包括我在内的一些佬友发现这两天ChatGPT降智挺严重的。
在我之前使用o1 preview的时候,降智很容易发现,因为我问它的时候,它连1秒的思考都没有,直接就开始自信满满地回答问题了,但是现在用o1正式版,它虽然降智,但是,它也开始思考了甚至它读不了我的截图都要先思考4秒钟!
那,除了发现它所提供的答案似是而非以外(这个太有难度了吧),还有什么迹象能够让我们尽快发现它降智了呢?
至少目前来看,读不了图是降智的显著特征之一。
由刚这个话题想到的
在刚刚的这个话题中,包括我在内的一些佬友发现这两天ChatGPT降智挺严重的。
在我之前使用o1 preview的时候,降智很容易发现,因为我问它的时候,它连1秒的思考都没有,直接就开始自信满满地回答问题了,但是现在用o1正式版,它虽然降智,但是,它也开始思考了甚至它读不了我的截图都要先思考4秒钟!
那,除了发现它所提供的答案似是而非以外(这个太有难度了吧),还有什么迹象能够让我们尽快发现它降智了呢?
至少目前来看,读不了图是降智的显著特征之一。
有没有可能o1没被降智
o1就是比o1-preview思考时间短,这就是他的能力所在
不能读图严格意义上不叫降智,叫限制吧应该是
GPT-4o降智的话用十个城市的景区问题就能测试出来,o1很明显,无思考就是降智
我不管 ,在我眼里OpenAI这么恶心人就是,他新出的o1模型不如o1-preview好用,也是
同感。o1正式版连色盲问题都答不对了。
下午用的 o1 跟我早上用的 o1 绝对不是同一个东西,降智太明显了
今天傍晚偶然发现一个很有意思的现象:
关于 9.11和9.8谁大?
这个常见的问题,API 的 o1-preview
和 o1-mini
我 regen 了几次,都是正确答案。但是 ChatGPT 不管是网页版还是 app 版,都有不小的概率答错,这个事情非常神奇。
我今天白天用着还不错,但是我今天白天问的都是比较文科的题,也没有让他读图。晚上是拿了一道数学题的截图给他看,结果他就读不了,而且算出了一个错误的答案。
if 降智?
sleep time
return gpt 4o
else
return o1
我现在用官网的claude感觉很不错,回答问题文本长,而且界面也很好,前端代码还能渲染。要我付费我肯定选claude
感觉o1mini更好
所以我说 ChatGPT 有不小的概率答错。
多问几次试试?基本上现在看是否思考是不好判断降智与否了。
我的区分题库助你一臂之力
佬们也可以一起来完善
这结果太不稳定了。相当于你问了 4 次,只对一次?
一个是擅长降智,一个是擅长封号