o3-mini-high为何如此不堪

bianselong · 2025 年2 月 23 日 02:53

YHX2010 · 2025 年2 月 23 日 02:55

笑死，还不如非推理的Qwen2.5 Max和Gemini 2 Flash/Pro

zzhzzh · 2025 年2 月 23 日 02:58

那这不科学啊，目前o3mini还是最强模型。

baipiaodang · 2025 年2 月 23 日 02:58

因为是mini？

Xcating · 2025 年2 月 23 日 03:01

这个站是每个人都能投票的，要看问的问题的复杂度和回答的格式还有格式遵循度这种，o3-mini确实不适合一般人提问

GinNoKaze · 2025 年2 月 23 日 03:19

R1这下都不如4o latest了

GinNoKaze · 2025 年2 月 23 日 03:20

这榜专业吗

YHX2010 · 2025 年2 月 23 日 03:23

这确实，两个LLM互搏，不可能让通用模型公平对决推理模型

YHX2010 · 2025 年2 月 23 日 03:25

4o latest杀疯了（
不过测评水准就是看两个模型同一个问题（用户问的）谁的表现好（用户打分），万一出现刷分的情况就……

F-droid · 2025 年2 月 23 日 03:39

一点都不意外，知识面太窄

Biss · 2025 年2 月 23 日 04:06

小参数模型在通用问题上表现不佳很正常

wwow · 2025 年2 月 23 日 04:21

木晓得哦

6512345 · 2025 年2 月 23 日 04:23

lmarena不算太公平w

Nshpiter · 2025 年2 月 23 日 04:24

昨天站内佬给了个 LiveBench
看起来比较真

Sam_Altman · 2025 年2 月 23 日 04:26

还是要看实际体验吧，Claude 跑分不高，实际体验没输过

wj888w123 · 2025 年2 月 23 日 04:43

我是觉得o3速度慢，回答也不算好，一直用o1的

lumoss · 2025 年2 月 23 日 04:49

与其相信榜单，不如相信自己的使用体验

kez · 2025 年2 月 23 日 04:56

感覺這些排行榜都不是很準

fhx · 2025 年2 月 23 日 05:02

o3-mini在科学、数学、编程推理进行了微调，整体表现不好正常

zhousp666 · 2025 年2 月 23 日 05:27

我是看的这个

话题		回复	浏览量
o3 mini上新！开发调优人工智能	37	861	2025 年2 月 3 日
请大家评价一下gemini的最新模型，排行榜一是实力吗？搞七捻三人工智能 , 快问快答	20	722	2025 年1 月 31 日
03-mini上线了，用Mozi佬题库来测试，结果。。。前沿快讯人工智能 , 纯水	22	1100	2025 年2 月 3 日
o3-mini-high 真的比 o1 强吗搞七捻三人工智能	20	918	2025 年2 月 18 日
o3-mini 在新排行榜里表现好差搞七捻三树洞	12	573	2025 年2 月 10 日