给我钱,我也出个榜
包括livebench的这几个半个gemini exp 1206都爆了claude 3.5sonet,真的这么强么
这玩意排名也太离谱了,4o都和o1排一起
1 个赞
StyleCtrl 也是重点 不能只看 rank
至于Google 他们新的1206确实符合表现
但是一些小模型例如2 flash和thinking 上榜的原因只是回复偏好问题而已 说白了刷榜
就是就是
看到4o排第一就跟看到麦克阿瑟排第一一样
1 个赞
DeekSeek V3的排名有点看不懂,忽高忽低,再稳定稳定的。