如图所示,在网上找到了三个AI大模型排行榜单,来自不同的网站,各模型的排行也不太一样,到底哪个榜最准确呢?
我发现第一个榜的数据经常被自媒体作者引用到视频当中,也许是第一个比较靠谱吧?
来源:
图一:https://lmarena.ai/?leaderboard
图二:https://llm-stats.com/
图三:LLM Leaderboard - Compare GPT-4o, Llama 3, Mistral, Gemini & other models | Artificial Analysis
6 Likes
我感觉自己的感受才是第一位
1 Like
综合排名的话,还不如看 open router。哈哈哈。
论单项能力的话, 我觉得 livebench还行。但是对新模型的排名要慎重。
2 Likes
第三个好点
1 Like
感觉这个好点
1 Like
推荐按自己的需求看特定类型的榜单,比如编码或写作
1 Like
自己的排行榜最可信
3 Likes
正确的。
这个最不可信,全靠投票
这个榜单是真的娱乐
openrouter 的最可信()
2 Likes
or那个不是token总消耗的最多哪个就是第一名吗
对啊, 用户真金白银投的票()
1 Like
这个在哪看啊
1 Like
自己体验好才是最重要的(◍•ᴗ•◍)
1 Like
我自己的竞技场最可信
简而言之:没有。原因:每个人的需要并不相同。
最好的方法:自己设计满足自己需要的 benchmark
需要提醒的是,openrouter 的用量是非常非常少的,参考性并不充足,因为偏差太大。
参考数据:
OR - 整个平台 7T Token/月
豆包系列模型(官方) - 12.7T Token/天
Openai / Claude 官方 API,和 C端,就更不用说有多大的量了