OpenAI 霸榜了


整个排行榜前面全是OpenAI的模型
(但是数学还是Gemini霸榜)
这几周他们推得好勤啊

32 Likes

openai还是有点底子的,但是已经不是不可超越的神话了

16 Likes

closeAI领先模型没得说,只是它家策略一如既往该喷还得喷 :laughing:

9 Likes

我感觉这两个新出的模型主要依靠代码分拉开和别的模型的差距,而榜单的测试集又是前十多天才改的, claude3.7的代码32.43分,暗示代码测评分数对实际编程的参考意义不大
livebench的测试集有点像对openai专门优化过了:clown_face::clown_face:

6 Likes

還得看實際用

骂归骂,OAI目前的确是行业龙头。

2 Likes

所以……啊?

1 Like

这么厉害吗

还没试过

降智能把人气死

1 Like

这是哪个榜

力大砖飞的生动写照

这个榜的coding有点搞笑了,claude的分数这么低

5 Likes

claude 才3.2分确实和使用感觉差距太大

1 Like

实际还是gemini和claude舒服

2 Likes

你这么一说我想起来了,这个榜更新前claude3.7 thinking的coding分数是74,更新后直接变44了

毕竟openAI还是有实力的,虽然说当年地位肯定不复存在了w

不太敢信

1 Like

让子弹飞一会儿

多用点, 好让gemini没那么卡~~