大模型评估榜单集合：挑选适合你的模型

常规话题人工智能

smsquirrel 2024 年3 月 20 日 07:32 1

经过一年半的时间国产大模型有了长足进展，但是很多用户仍然保持了对GPT-4模型的使用惯性。在个人日常使用过程中发现在某些场景GPT-4打不过国内模型。因此这个帖子主要是收集了业界以及学术界比较知名的大模型评估榜单（主要关注中文评估榜单）：

参考性较强的Benchmark：

主要以数据集规模，评估方式，评估模型的数量以及多样性作为依据，选择了Lmsys、OpenCompass等榜单进行展示：

Lmsys

该组织一直研究开放的大模型以及数据集、评估系统，在ChatGPT系列API发布初期，该组织就开始通过蒸馏的方式基于llama模型构造vicuna。对LLM评估主要是使用开放式的众包平台，用户给出一个问题，会有两个模型同时进行回复，然后用户从这两个回复中选择更好的一个，通过这种互动问答方式计算每个模型的Elo分数。

优点：这种方式摆脱了数据集的限制，缓解了数据泄露风险。

缺点：无法得知用户的统计背景，仅能体现模型综合性能，无法了解模型在不同场景下的表现。

Chat with Open Large Language Models (lmsys.org)

image2000×810 180 KB
OpenCompass

地址：指南针排名 (opencompass.org.cn)

对大模型在中文以及英文环境下进行评估，优点是评估数据丰富以及模型评估范围较广，更新比较及时

image22000×852 182 KB
FlagEval

智源推出的评估基准，主要关注大语言模型在中/英文场景中的性能

缺点在于评估的模型较少。

地址：FlagEval - 排行榜 (baai.ac.cn)

image32000×481 209 KB

其他Benchmark：

这些榜单的参考性较差，要么就是更新不及时，要么就是数据集质量较差（或是数据泄露比较严重）：

C-Eval

推出的较早，但是大模型在该基准上数据污染较为严重，因此当前该榜单参考性较弱

地址：Leaderboard | C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models (cevalbenchmark.com)

image41920×992 193 KB
SuperCLUE

主要关注大语言模型在专业知识、语言理解和生成、安全性以及作为智能体方面的性能。并且特色在于榜单基本每个一个月就会更新，更新最新的大语言模型以及改进评估方式。

但是是黑盒评估，无法看到评估使用的数据，虽然这在一定程度上缓解了数据泄露的风险，但是难以得知内部的评估数据来源以及选择依据。

地址：SuperCLUE (superclueai.com)

image51920×960 138 KB

目前最新榜单情况：

image62000×735 161 KB
CMMLU

地址：haonan-li/CMMLU: CMMLU: Measuring massive multitask language understanding in Chinese (github.com)

中文版本的MMLU基准，主要关注语言模型在中文环境下的知识和推理能力

缺点：关注模型较少以及更新不及时

image71920×1662 160 KB

总结：通过对多个评估基准的观察我们可以看出，在英文场景中GPT-4和Claude-3等模型仍然领先，但是国内水平正在拉近，对于代码生成任务来说，GPT-4和Claude-3优势比较明显，但是国产模型已经不是去年完全没法用的状态了。对于中文场景中的知识问答，目前国内大模型在去年就已经达到GPT-4水平，如今已经具备比较明显的优势。

相信在待到今年的llama3推出后，开源LLM就可以实现接近GPT-4的水平了。随后OpenAI的GPT 4.5/5又会将我们带到下一个AI时刻。

4 个赞

BNTang (Neo) 2024 年3 月 20 日 14:22 2

感谢分享

Geek (Geek) 2024 年3 月 21 日 06:44 3

不错

yyhhyy (yyhhyy) 2024 年3 月 21 日 06:51 4

mark~

话题		回复	浏览量	活动
AI 模型 PK 平台，提问两个大模型Claude 3 和 GPT 4 人工智能	6	464	2024 年3 月 6 日
【新人科普】各种AI模型代号，哪个是最新的？人工智能 chatgpt	10	574	2024 年3 月 29 日
Gemini 1.5 Pro 模型即将可用人工智能 chatgpt	8	699	2024 年3 月 24 日
问个问题，咱就是说有没有其他类似openAI一样的注册账号就可以用的语言模型？快问快答 chatgpt , openai	29	519	2024 年4 月 22 日
还有几天, 我即将发布AI杰巴克, GPT-4\3.5无限量！人工智能 chatgpt , openai	60	1524	2024 年3 月 31 日