32 Likes
openai还是有点底子的,但是已经不是不可超越的神话了
16 Likes
closeAI领先模型没得说,只是它家策略一如既往该喷还得喷
9 Likes
我感觉这两个新出的模型主要依靠代码分拉开和别的模型的差距,而榜单的测试集又是前十多天才改的, claude3.7的代码32.43分,暗示代码测评分数对实际编程的参考意义不大
livebench的测试集有点像对openai专门优化过了
6 Likes
還得看實際用
骂归骂,OAI目前的确是行业龙头。
2 Likes
所以……啊?
1 Like
这么厉害吗
还没试过
降智能把人气死
1 Like
这是哪个榜
力大砖飞的生动写照
这个榜的coding有点搞笑了,claude的分数这么低
5 Likes
claude 才3.2分确实和使用感觉差距太大
1 Like
实际还是gemini和claude舒服
2 Likes
你这么一说我想起来了,这个榜更新前claude3.7 thinking的coding分数是74,更新后直接变44了
毕竟openAI还是有实力的,虽然说当年地位肯定不复存在了w
不太敢信
1 Like
让子弹飞一会儿
多用点, 好让gemini没那么卡~~