哪个AI模型排行榜最可信?

如图所示,在网上找到了三个AI大模型排行榜单,来自不同的网站,各模型的排行也不太一样,到底哪个榜最准确呢?
我发现第一个榜的数据经常被自媒体作者引用到视频当中,也许是第一个比较靠谱吧?
来源:
图一:https://lmarena.ai/?leaderboard
图二:https://llm-stats.com/
图三:LLM Leaderboard - Compare GPT-4o, Llama 3, Mistral, Gemini & other models | Artificial Analysis



6 Likes

我感觉自己的感受才是第一位

1 Like

综合排名的话,还不如看 open router。哈哈哈。
论单项能力的话, 我觉得 livebench还行。但是对新模型的排名要慎重。 :grin:

2 Likes

第三个好点

1 Like

感觉这个好点

1 Like

推荐按自己的需求看特定类型的榜单,比如编码或写作

1 Like

自己的排行榜最可信

3 Likes

正确的。

这个最不可信,全靠投票

这个榜单是真的娱乐

openrouter 的最可信()

2 Likes

or那个不是token总消耗的最多哪个就是第一名吗:tieba_087:


claude因为代码绝对是榜首 :bili_040:

对啊, 用户真金白银投的票()

1 Like

这个在哪看啊

1 Like

自己体验好才是最重要的(◍•ᴗ•◍)

1 Like

4o-mini明显不正常

我自己的竞技场最可信

简而言之:没有。原因:每个人的需要并不相同。

最好的方法:自己设计满足自己需要的 benchmark

需要提醒的是,openrouter 的用量是非常非常少的,参考性并不充足,因为偏差太大。


参考数据:
OR - 整个平台 7T Token/月
豆包系列模型(官方) - 12.7T Token/
Openai / Claude 官方 API,和 C端,就更不用说有多大的量了