O1 性能真的暴强了

O1 性能真的暴强了,mini评个70分不过分,许多之前未发布的题目直接跳过前置提问直接到最后一问,错了,但是思路接近,你仅仅告诉它做错了,第二遍就完美解决.完全体估计85+,但是是用空间和时间换的,简单的题目都不想测了,困难但是比较经典的数学题也不要测,那个测不出真实水平,比如称重问题.需要创造新题目 PS:什么鬼,刚才又重新问了好几个问题,包括之前答对的,难道这么快就调低了 :smiling_face_with_tear:

116 个赞

我怎么老是把你这个 暴强 看反…

17 个赞

三眼问题还是反复错了,我估计就78分水平,其实天枰称重要难不少的,但是太经典,答案太多.

5 个赞

有哪些可以用来测试的例子嘛?用了一天感觉和4o没啥区别

2 个赞

当然,就目前来说离人还是差的远,别信那些什么奥数考试之类的…稍微灵活一点的博弈论就看出来,可以期待完整版

2 个赞

见我之前的帖子 模型推理能力评定 附例题 更新O1mini测试情况

6 个赞


主要还是加入了思考部分,更加贴近人的思维
虽然还是回答错误罢,不过我发现他好像也会生气哈哈哈哈哈哈,“但我还是冷静下来”这句话显得好无奈啊哈哈哈哈

我的言论可能过于偏激,有问题告诉我我直接删掉就好了 :tieba_087:

新的模型,正好试试之前卡壳的问题 :joy:

1 个赞

暴强不至于吧

1 个赞

暴强是不是太吹嘘了

1 个赞

至少它很有美德,没见过比它更勤快的模型了

为啥我的是对的?用的 o1-mini 的

1 个赞

我刚才测试和你的回复一模一样,mini就是秒杀这道题 :bili_048:

1 个赞

是的,preview 有点傻,我刚刚问了一个复杂的数学问题,在 4o 4o-mini 4 都不行,但是 o1-mini 可以,o1-preview 不行。

A=AB+C B=BC+A C=AC+B 求A+B+C,其中 ABC 互不相等。
1 个赞

gpt4 gpt4o gpt4o-mini claude3.5 怎么比较

2 个赞

claude 3.5 像那种中途会反思错误,更少犯离谱的错误的,4o 0806系列 最好,“匹配”
感很强,像是已知答案匹配的,往往一下就匹配中答案,但是你细问它,或者稍微变通一下,它会非常愚蠢,比如博弈类游戏.其余更旧的gpt没有比较意义.
claude 3.5 大概50分 4o 0806 47分 见我之前的帖子.

3 个赞

感觉还是4系列…

1 个赞

数学证明还是不会, 放弃吧, 根本没答到点子上 :yawning_face:

2 个赞

这个mini,我认为纯逻辑能力算是人当中特别笨的那一类,之前的模型大约处于野生动物层次

2 个赞

不是,啊?