O1 性能真的暴强了

pwtramp123 · 2024 年9 月 13 日 08:15

O1 性能真的暴强了，mini评个70分不过分，许多之前未发布的题目直接跳过前置提问直接到最后一问，错了，但是思路接近，你仅仅告诉它做错了，第二遍就完美解决.完全体估计85+，但是是用空间和时间换的，简单的题目都不想测了，困难但是比较经典的数学题也不要测，那个测不出真实水平，比如称重问题.需要创造新题目 PS:什么鬼，刚才又重新问了好几个问题，包括之前答对的，难道这么快就调低了

China97 · 2024 年9 月 13 日 08:17

我怎么老是把你这个暴强看反…

pwtramp123 · 2024 年9 月 13 日 08:17

三眼问题还是反复错了，我估计就78分水平，其实天枰称重要难不少的，但是太经典，答案太多.

haly · 2024 年9 月 13 日 08:34

有哪些可以用来测试的例子嘛？用了一天感觉和4o没啥区别

pwtramp123 · 2024 年9 月 13 日 08:37

当然，就目前来说离人还是差的远，别信那些什么奥数考试之类的…稍微灵活一点的博弈论就看出来，可以期待完整版

pwtramp123 · 2024 年9 月 13 日 08:37

见我之前的帖子模型推理能力评定附例题更新O1mini测试情况

awz707 · 2024 年9 月 13 日 08:48

主要还是加入了思考部分，更加贴近人的思维
虽然还是回答错误罢，不过我发现他好像也会生气哈哈哈哈哈哈，“但我还是冷静下来”这句话显得好无奈啊哈哈哈哈

我的言论可能过于偏激，有问题告诉我我直接删掉就好了

easymbol · 2024 年9 月 13 日 08:54

新的模型，正好试试之前卡壳的问题

handsome · 2024 年9 月 13 日 08:59

暴强不至于吧

1231 · 2024 年9 月 13 日 09:00

暴强是不是太吹嘘了

shay · 2024 年9 月 13 日 09:13

至少它很有美德，没见过比它更勤快的模型了

ye4241 · 2024 年9 月 13 日 09:40

为啥我的是对的？用的 o1-mini 的

awz707 · 2024 年9 月 13 日 09:41

我刚才测试和你的回复一模一样，mini就是秒杀这道题

ye4241 · 2024 年9 月 13 日 09:47

是的，preview 有点傻，我刚刚问了一个复杂的数学问题，在 4o 4o-mini 4 都不行，但是 o1-mini 可以，o1-preview 不行。

A=AB+C B=BC+A C=AC+B 求A+B+C，其中 ABC 互不相等。

clenlu · 2024 年9 月 13 日 10:21

gpt4 gpt4o gpt4o-mini claude3.5 怎么比较

pwtramp123 · 2024 年9 月 13 日 10:25

claude 3.5 像那种中途会反思错误，更少犯离谱的错误的，4o 0806系列最好，“匹配”
感很强，像是已知答案匹配的，往往一下就匹配中答案，但是你细问它，或者稍微变通一下，它会非常愚蠢，比如博弈类游戏.其余更旧的gpt没有比较意义.
claude 3.5 大概50分 4o 0806 47分见我之前的帖子.

Chris1990 · 2024 年9 月 13 日 12:51

感觉还是4系列…

hakutaku · 2024 年9 月 13 日 13:14

数学证明还是不会, 放弃吧, 根本没答到点子上

pwtramp123 · 2024 年9 月 13 日 13:20

这个mini，我认为纯逻辑能力算是人当中特别笨的那一类，之前的模型大约处于野生动物层次

mycbxzd · 2024 年9 月 13 日 13:21

不是,啊?

话题		回复	浏览量
o1-mini已经完全制霸亚思维强度的高难度数学题了前沿快讯 ChatGPT , OpenAI	24	1006	2024 年9 月 18 日
用o1写了两个题目，有水平的看看对不对搞七捻三人工智能 , 快问快答	2	221	2024 年9 月 13 日
o1的实力真的强啊搞七捻三 ChatGPT , 人工智能 , 纯水	65	3420	2024 年11 月 6 日
Perplexity的o1 mini可用了搞七捻三人工智能	31	804	2024 年9 月 17 日
本科高数题只有 O1 能答出来搞七捻三人工智能	20	797	2024 年10 月 29 日

O1 性能真的暴强了

相关话题