最值得看的大模型pk排行榜,就看这两个!

刚看到文心一言超越GPT4o了,心头一紧 :rofl:
大模型榜单掺水的实在太多,导致很难选择自己中意的模型。
目前比较客观的、权威的、很难注水的榜单,我比较看好以下的:

1. OpenCompass 司南大模型评测体系
官网:https://rank.opencompass.org.cn/home
只做简单介绍,具体可以看官网。
OpenCompass大模型开放评测体系是上海人工智能实验室推出的完整开源可复现的评测框架。作为 OpenCompass 中各类榜单的承载平台,CompassRank 不受任何商业利益干扰,保持中立性。同时,依托 CompassKit 工具链体系中的各类评测手段,保证了 CompassRank 的客观性。CompassRank 不仅覆盖多领域、多任务下的模型性能,还将定期更新,提供动态的行业洞察。与此同时,OpenCompass 团队将在榜单中提供专业解读,进一步帮助从业者理解技术深意,优化模型选择。
下面是最新的榜单(代码能力,deepseek :grinning:可以一战):

附上一篇文章: https://mp.weixin.qq.com/s/yWyaIJK09wwbDYqOgVnX6g

2. BigCodeBench
官方榜单地址:BigCodeBench Leaderboard - a Hugging Face Space by bigcode
简单介绍: HumanEval是一个用于评估大型语言模型 (LLM) 在代码生成任务中的参考基准,因为它使得对紧凑的函数级代码片段的评估变得容易。然而,关于其在评估 LLM 编程能力方面的有效性越来越多的担忧,主要问题是 HumanEval 中的任务太简单,可能不能代表真实世界的编程任务。相比于 HumanEval 中的算法导向任务,真实世界的软件开发通常涉及多样的库和函数调用。此外,LLM 在 HumanEval 上的表现还受污染和过拟合问题的影响,这使得其在评估 LLM 的泛化能力方面不够可靠。BigCodeBench 的发布,它可以在没有污染的情况下评估 LLM 解决实际和具有挑战性的编程任务的能力。具体来说,BigCodeBench 包含 1140 个函数级任务,挑战 LLM 遵循指令并将来自 139 个库的多个函数调用作为工具进行组合。为了严格评估 LLM,每个编程任务包含 5.6 个测试用例,平均分支覆盖率为 99%。
以下是最新榜单(deepseek :rofl: 牛啊):

附上一篇文章https://mp.weixin.qq.com/s/RMNwgrXfwHFcg7wg4m4Mvw

补充:
3.Chatbot Arena
感谢null在楼层的补充,lmsys确实是当前认可度最高的,由于帖子没有把竞技场放进来,所以一开始没放lmsys,现在作为补充,供大家了解最客观的榜单。
chatbot arena https://chat.lmsys.org

最真实可信的毫无疑问是Chatbot Arena。Lecun,Karpathy,Ilya等大神和Altman等人都认可这个榜单。这个榜单是人类盲测的,且测评的网友数量是所有榜单中最多的。我自己使用这些llm的感受也和arena的leaderboard一样。

12 Likes

第二个不是很靠谱啊,用elo测这个?

个人感受deepseek和4o或3.5sonnet写代码的差距还是很大

4 Likes

代码能力是接近 4 的,但是实际使用中还会有对 prompt 的理解能力和推理能力的影响,所以实际使用体验上跟 4 的差距还是有不少的。
但是考虑到成本,Deepseek 已经非常强了

2 Likes

那俩确实是高手中的高手。

我觉得deepseek有时候甚至还不如3.5turbo和haiku,有时间我新开个帖子整理一下我最近测评用的例子

有没有代码助手的客观排行榜

1 Like

如果作为搜题软件,佬友们有没有模型推荐?

deepseek coder还是不咋行,不听prompt的,或者说对prompt的理解没其他那俩好,复杂的代码需求也明显不如

1 Like

第一个榜单豆包比opus还强 太离谱了吧

1 Like

少走了很多弯路,谢谢大佬

感谢分享

claude全系都不弱,与chatgpt伯仲之间。

1 Like

感谢分享

楼主发的第二个榜单倒是没听说过,下面这个榜单怎么样 :tieba_066:
CLiB中文大模型能力评测榜单

deepseek超opus我觉得扯了

记得以前sam altman在x上发过一篇推,说只有2个排行榜是他认可的。
原文没说是哪两个,我到处找了找,好像是这两个
https://arena.lmsys.org/
https://super.gluebenchmark.com/leaderboard

不知道我找的对不对

2 Likes

Clip_2024-07-09_10-20-29
多么讽刺啊,closeai实锤

5 Likes

Claude 3.5 sonnet我最近使用体验是对prompt的理解和跟随非常出色,当我的prompt有一大堆要求时,其他模型都会出现“注意力”问题,比如你给它1条要求它会遵守,你给4条它就抓不住重点于是不遵守了,只有3.5sonnet在这里表现出色,给一大堆要求它也能和只给1条一样精准遵守。

gpt 4o因为我问题设计的原因没试出来这方面表现怎么样。其他Claude 3 opus和gemini 1.5 pro之类的通通不行。

3 Likes

deepseek的能力有待商榷