今天关注到LMSYS榜单上进行了一项更新,其中新添加了有关Claude-3-Haiku模型的最终结果,以及将之前结果进行了更新,结果显示目前Claude-3-Opus已经超过GPT-4-turbo-preview,拿下榜一大哥位置。
但是众所周知,LMSYS这个榜单计算方式存在一定幸存者偏差(使用Elo计算分数,完全由人类进行打分,因此分数完全取决于使用该平台的用户),因此对于表面的分数希望进行更加深度的分析。
关注到LMSYS官方放出的一个Colab Notebook,里面对语言进行了统计,其中主要使用的语言是英文,第二大语言是中文,因此表面上的分数也许更加反应的是英文母语用户使用者。
然后我关注到了在非英文这一栏的分数统计中,Claude-3-Opus的Elo分数显著超过了GPT-4-turbo-preview:
这也意味着对于中文用户来说也许Claude-3-Opus才是最好的选择。