大模型评估榜单集合:挑选适合你的模型

经过一年半的时间国产大模型有了长足进展,但是很多用户仍然保持了对GPT-4模型的使用惯性。在个人日常使用过程中发现在某些场景GPT-4打不过国内模型。因此这个帖子主要是收集了业界以及学术界比较知名的大模型评估榜单(主要关注中文评估榜单):

参考性较强的Benchmark:

主要以数据集规模,评估方式,评估模型的数量以及多样性作为依据,选择了Lmsys、OpenCompass等榜单进行展示:

  • Lmsys

    该组织一直研究开放的大模型以及数据集、评估系统,在ChatGPT系列API发布初期,该组织就开始通过蒸馏的方式基于llama模型构造vicuna。对LLM评估主要是使用开放式的众包平台,用户给出一个问题,会有两个模型同时进行回复,然后用户从这两个回复中选择更好的一个,通过这种互动问答方式计算每个模型的Elo分数。

    优点:这种方式摆脱了数据集的限制,缓解了数据泄露风险。

    缺点:无法得知用户的统计背景,仅能体现模型综合性能,无法了解模型在不同场景下的表现。

    Chat with Open Large Language Models (lmsys.org)

  • OpenCompass

    地址:指南针排名 (opencompass.org.cn)

    对大模型在中文以及英文环境下进行评估,优点是评估数据丰富以及模型评估范围较广,更新比较及时

  • FlagEval

    智源推出的评估基准,主要关注大语言模型在中/英文场景中的性能

    缺点在于评估的模型较少。

    地址:FlagEval - 排行榜 (baai.ac.cn)

其他Benchmark:

这些榜单的参考性较差,要么就是更新不及时,要么就是数据集质量较差(或是数据泄露比较严重):

总结:通过对多个评估基准的观察我们可以看出,在英文场景中GPT-4和Claude-3等模型仍然领先,但是国内水平正在拉近,对于代码生成任务来说,GPT-4和Claude-3优势比较明显,但是国产模型已经不是去年完全没法用的状态了。对于中文场景中的知识问答,目前国内大模型在去年就已经达到GPT-4水平,如今已经具备比较明显的优势。

相信在待到今年的llama3推出后,开源LLM就可以实现接近GPT-4的水平了。随后OpenAI的GPT 4.5/5又会将我们带到下一个AI时刻。
4 个赞

感谢分享

不错

mark~