6 个赞
笑死,还不如非推理的Qwen2.5 Max和Gemini 2 Flash/Pro
那这不科学啊,目前o3mini还是最强模型。
1 个赞
因为是mini?
这个站是每个人都能投票的,要看问的问题的复杂度和回答的格式还有格式遵循度这种,o3-mini确实不适合一般人提问
1 个赞
R1这下都不如4o latest了
这榜专业吗
这确实,两个LLM互搏,不可能让通用模型公平对决推理模型
一点都不意外,知识面太窄
小参数模型在通用问题上表现不佳很正常
木晓得哦
1 个赞
lmarena不算太公平w
昨天站内佬给了个 LiveBench
看起来比较真
还是要看实际体验吧,Claude 跑分不高,实际体验没输过
我是觉得o3速度慢,回答也不算好,一直用o1的
1 个赞
与其相信榜单,不如相信自己的使用体验
感覺這些排行榜都不是很準
o3-mini在科学、数学、编程推理进行了微调,整体表现不好正常
我是看的这个