有关Claude-3-Opus超过GPT-4的细节

smsquirrel · 2024 年3 月 27 日 03:44

今天关注到LMSYS榜单上进行了一项更新，其中新添加了有关Claude-3-Haiku模型的最终结果，以及将之前结果进行了更新，结果显示目前Claude-3-Opus已经超过GPT-4-turbo-preview，拿下榜一大哥位置。
但是众所周知，LMSYS这个榜单计算方式存在一定幸存者偏差（使用Elo计算分数，完全由人类进行打分，因此分数完全取决于使用该平台的用户），因此对于表面的分数希望进行更加深度的分析。
关注到LMSYS官方放出的一个Colab Notebook，里面对语言进行了统计，其中主要使用的语言是英文，第二大语言是中文，因此表面上的分数也许更加反应的是英文母语用户使用者。

然后我关注到了在非英文这一栏的分数统计中，Claude-3-Opus的Elo分数显著超过了GPT-4-turbo-preview：

这也意味着对于中文用户来说也许Claude-3-Opus才是最好的选择。

RichardChou · 2024 年3 月 27 日 04:01

不错，你研究的很仔细。

photo · 2024 年3 月 27 日 04:39

lin265 · 2024 年3 月 27 日 04:45

opus好是好，就是不太好搞啊，换了好几家api了，全都没有opus可用了

zhong_little · 2024 年3 月 27 日 05:03

也许只是国人爱拿小克玩猫娘

smsquirrel · 2024 年3 月 27 日 05:30

奇妙的可能性

lueluelue · 2024 年3 月 27 日 05:37

这个榜可以刷吧，英文逗号的就是claude

wangjian · 2024 年3 月 27 日 05:41

opus确实强

zhong_little · 2024 年3 月 27 日 05:54

稍微改动了下代码，这是中文区的分数统计

话题		回复	浏览量
期盼claude opus的3.5版本！人工智能 chatgpt	2	290	2024 年6 月 24 日
gpt4里面竟然有claude3 opus 人工智能 chatgpt	20	1509	2024 年3 月 17 日
来投票：GPT-4 VS Claude-3-opus 人工智能	30	1860	2024 年3 月 5 日
实测 Claude 3.5 Sonnet VS GPT-4o，最强大模型的宝座可能要易主了人工智能 chatgpt	26	1893	2024 年7 月 1 日
Claude Pro和ChatGPT Plus更推荐哪个？快问快答	65	1060	2024 年5 月 2 日

有关Claude-3-Opus超过GPT-4的细节

相关话题