中文大模型基准测评2024年10月报告







4 个赞

o1-preview 份量和速度都没法日用。Claude 3.5 Sonnet 和 GLM-4-Plus 这俩很强而且也不贵。

1 个赞

哈哈哈哈哈哈哈啊哈哈哈哈

GLM-4-Plus强在哪里。代码强吗

第一个榜怎么gpt-4o都没有 :tieba_087:

1 个赞

:bili_040: 强在得分.jpg 国区第一了。目前我的日用模型,在中文母语的场景下体验比 4o/gemini 那些好些,还有因为是国内的响应速度比境外的快。


榜单有 Qwen-72B,但感觉 Qwen 技能全点在专攻得分上了,实用体验并不好经常输出乱码那些。或者无限 \n\n\n\n\n\n\n\n\n\n\n

1 个赞

估计默认测的是LEAST版本了

对大参数的模型有好感 :yum: