deepseek V3在lmarena的结果出来了,第7名

给我钱,我也出个榜

包括livebench的这几个半个gemini exp 1206都爆了claude 3.5sonettieba_030,真的这么强么

这玩意排名也太离谱了,4o都和o1排一起

1 个赞

StyleCtrl 也是重点 不能只看 rank
至于Google 他们新的1206确实符合表现
但是一些小模型例如2 flash和thinking 上榜的原因只是回复偏好问题而已 说白了刷榜

就是就是

看到4o排第一就跟看到麦克阿瑟排第一一样 :bili_040:

1 个赞

DeekSeek V3的排名有点看不懂,忽高忽低,再稳定稳定的。