中文大模型基准测评2024上半年报告 (精简版)

本次测评数据选取了SuperCLUE-6月测评结果,模型选取了国内外有代表性的33个大模型在6月份的版本。

SuperCLUE通用能力测评:一级总分

SuperCLUE通用能力测评:二级维度分数

理科细粒度分数

文科细粒度分数

SuperCLUE细粒度全局分数

国内大模型SuperCLUE历届Top3

SuperCLUE理科成绩

SuperCLUE文科成绩

SuperCLUE-Hard成绩

SuperCLUE开源榜单

SuperCLUE端侧小模型榜单

大模型对战胜率分布图

3 Likes

qwen那个很强吗,没感觉出来呀

1 Like

阿里给他赞助多?哈哈哈 大家请自行评测

讯飞星火都上4.0了,它怎么不上 large 版的 01,是太贵了吗

deepseek才是牛逼,就那个性价比,秒了

1 Like

所以哪个最好用? :crazy_face:

1 Like

TLDR:

只要不让Command-R+、Opus参赛

每个大参数模型看上去都有光明的未来 :innocent:

每个榜都不一样 看麻了

command-r-plus很强吗,感觉用起来不太行啊,经常会在回复中夹杂繁体或者不知名语言

和其他开源模型PK还是不错的

这里也能看到 闭源模型完全是另一套评价标准了

个人感觉没deepseek-chat强

用英文进行评价会相对地公平

因为国外模型的训练 经常是缺乏优质中文语料的

(这种情况下 4o的中文素养真的是OpenAI完美finetuning的成果)

谷歌ai中文分还低 我感觉是不对的