经过一年半的时间国产大模型有了长足进展,但是很多用户仍然保持了对GPT-4模型的使用惯性。在个人日常使用过程中发现在某些场景GPT-4打不过国内模型。因此这个帖子主要是收集了业界以及学术界比较知名的大模型评估榜单(主要关注中文评估榜单):
参考性较强的Benchmark:
主要以数据集规模,评估方式,评估模型的数量以及多样性作为依据,选择了Lmsys、OpenCompass等榜单进行展示:
-
Lmsys
该组织一直研究开放的大模型以及数据集、评估系统,在ChatGPT系列API发布初期,该组织就开始通过蒸馏的方式基于llama模型构造vicuna。对LLM评估主要是使用开放式的众包平台,用户给出一个问题,会有两个模型同时进行回复,然后用户从这两个回复中选择更好的一个,通过这种互动问答方式计算每个模型的Elo分数。
优点:这种方式摆脱了数据集的限制,缓解了数据泄露风险。
缺点:无法得知用户的统计背景,仅能体现模型综合性能,无法了解模型在不同场景下的表现。
-
OpenCompass
对大模型在中文以及英文环境下进行评估,优点是评估数据丰富以及模型评估范围较广,更新比较及时
-
FlagEval
智源推出的评估基准,主要关注大语言模型在中/英文场景中的性能
缺点在于评估的模型较少。
其他Benchmark:
这些榜单的参考性较差,要么就是更新不及时,要么就是数据集质量较差(或是数据泄露比较严重):
-
C-Eval
推出的较早,但是大模型在该基准上数据污染较为严重,因此当前该榜单参考性较弱
-
SuperCLUE
主要关注大语言模型在专业知识、语言理解和生成、安全性以及作为智能体方面的性能。并且特色在于榜单基本每个一个月就会更新,更新最新的大语言模型以及改进评估方式。
但是是黑盒评估,无法看到评估使用的数据,虽然这在一定程度上缓解了数据泄露的风险,但是难以得知内部的评估数据来源以及选择依据。
地址:SuperCLUE (superclueai.com)
目前最新榜单情况:
-
CMMLU
地址:haonan-li/CMMLU: CMMLU: Measuring massive multitask language understanding in Chinese (github.com)
中文版本的MMLU基准,主要关注语言模型在中文环境下的知识和推理能力
缺点:关注模型较少以及更新不及时
总结:通过对多个评估基准的观察我们可以看出,在英文场景中GPT-4和Claude-3等模型仍然领先,但是国内水平正在拉近,对于代码生成任务来说,GPT-4和Claude-3优势比较明显,但是国产模型已经不是去年完全没法用的状态了。对于中文场景中的知识问答,目前国内大模型在去年就已经达到GPT-4水平,如今已经具备比较明显的优势。
相信在待到今年的llama3推出后,开源LLM就可以实现接近GPT-4的水平了。随后OpenAI的GPT 4.5/5又会将我们带到下一个AI时刻。