O1 性能真的暴强了,mini评个70分不过分,许多之前未发布的题目直接跳过前置提问直接到最后一问,错了,但是思路接近,你仅仅告诉它做错了,第二遍就完美解决.完全体估计85+,但是是用空间和时间换的,简单的题目都不想测了,困难但是比较经典的数学题也不要测,那个测不出真实水平,比如称重问题.需要创造新题目 PS:什么鬼,刚才又重新问了好几个问题,包括之前答对的,难道这么快就调低了
116 个赞
我怎么老是把你这个 暴强 看反…
17 个赞
三眼问题还是反复错了,我估计就78分水平,其实天枰称重要难不少的,但是太经典,答案太多.
5 个赞
有哪些可以用来测试的例子嘛?用了一天感觉和4o没啥区别
2 个赞
当然,就目前来说离人还是差的远,别信那些什么奥数考试之类的…稍微灵活一点的博弈论就看出来,可以期待完整版
2 个赞
见我之前的帖子 模型推理能力评定 附例题 更新O1mini测试情况
6 个赞
新的模型,正好试试之前卡壳的问题
1 个赞
暴强不至于吧
1 个赞
暴强是不是太吹嘘了
1 个赞
至少它很有美德,没见过比它更勤快的模型了
我刚才测试和你的回复一模一样,mini就是秒杀这道题
1 个赞
是的,preview 有点傻,我刚刚问了一个复杂的数学问题,在 4o 4o-mini 4 都不行,但是 o1-mini 可以,o1-preview 不行。
A=AB+C B=BC+A C=AC+B 求A+B+C,其中 ABC 互不相等。
1 个赞
gpt4 gpt4o gpt4o-mini claude3.5 怎么比较
2 个赞
claude 3.5 像那种中途会反思错误,更少犯离谱的错误的,4o 0806系列 最好,“匹配”
感很强,像是已知答案匹配的,往往一下就匹配中答案,但是你细问它,或者稍微变通一下,它会非常愚蠢,比如博弈类游戏.其余更旧的gpt没有比较意义.
claude 3.5 大概50分 4o 0806 47分 见我之前的帖子.
3 个赞
感觉还是4系列…
1 个赞
数学证明还是不会, 放弃吧, 根本没答到点子上
2 个赞
这个mini,我认为纯逻辑能力算是人当中特别笨的那一类,之前的模型大约处于野生动物层次
2 个赞