o3-mini-high为何如此不堪


Chatbot Arena (formerly LMSYS): Free AI Chat to Compare & Test Best AI Chatbots

6 个赞

笑死,还不如非推理的Qwen2.5 Max和Gemini 2 Flash/Pro

那这不科学啊,目前o3mini还是最强模型。

1 个赞

因为是mini?

这个站是每个人都能投票的,要看问的问题的复杂度和回答的格式还有格式遵循度这种,o3-mini确实不适合一般人提问

1 个赞

R1这下都不如4o latest了

这榜专业吗

这确实,两个LLM互搏,不可能让通用模型公平对决推理模型

:rofl:

4o latest杀疯了(
不过测评水准就是看两个模型同一个问题(用户问的)谁的表现好(用户打分),万一出现刷分的情况就……

1 个赞

一点都不意外,知识面太窄

小参数模型在通用问题上表现不佳很正常

木晓得哦

1 个赞

lmarena不算太公平w

昨天站内佬给了个 LiveBench
看起来比较真

还是要看实际体验吧,Claude 跑分不高,实际体验没输过

我是觉得o3速度慢,回答也不算好,一直用o1的

1 个赞

与其相信榜单,不如相信自己的使用体验

感覺這些排行榜都不是很準

o3-mini在科学、数学、编程推理进行了微调,整体表现不好正常

我是看的这个