有关Claude-3-Opus超过GPT-4的细节

今天关注到LMSYS榜单上进行了一项更新,其中新添加了有关Claude-3-Haiku模型的最终结果,以及将之前结果进行了更新,结果显示目前Claude-3-Opus已经超过GPT-4-turbo-preview,拿下榜一大哥位置。
但是众所周知,LMSYS这个榜单计算方式存在一定幸存者偏差(使用Elo计算分数,完全由人类进行打分,因此分数完全取决于使用该平台的用户),因此对于表面的分数希望进行更加深度的分析。
关注到LMSYS官方放出的一个Colab Notebook,里面对语言进行了统计,其中主要使用的语言是英文,第二大语言是中文,因此表面上的分数也许更加反应的是英文母语用户使用者。


然后我关注到了在非英文这一栏的分数统计中,Claude-3-Opus的Elo分数显著超过了GPT-4-turbo-preview:

这也意味着对于中文用户来说也许Claude-3-Opus才是最好的选择。

9 个赞

不错,你研究的很仔细。 :+1:t2:

2 个赞

:+1:

1 个赞

opus好是好,就是不太好搞啊,换了好几家api了,全都没有opus可用了

1 个赞

也许只是国人爱拿小克玩猫娘 :stuck_out_tongue:

1 个赞

奇妙的可能性 :joy:

1 个赞

这个榜可以刷吧,英文逗号的就是claude :rofl:

2 个赞

opus确实强

1 个赞

稍微改动了下代码,这是中文区的分数统计

image

4 个赞