livebench 最新模型跑分结果已出炉

  • gemini 1.5 pro 002 综合评分与 gpt 4o(chatgpt 4o latest)持平。数学评分 57,仅次 o1-mini 和 o1-preview,世界第三。

  • qwen2.5 72b 综合评分接近 llama3.1 405b。代码评分 56,仅次 claude 3.5 sonnet 的 60 分,世界第二。

  • gemini 1.5 flash 002 综合评分 49,超过 deepseek 2.5 和 gpt 4o mini。

18 个赞

果然coding还是得看claude

6 个赞

无敌的存在。

3 个赞

From 搞七捻三 to 前沿快讯

qwen2.5这么强

1 个赞

这个准吗

1 个赞

感觉不准,但已经是目前最好的排行榜了

分数是准的,但是保不齐有模型为了冲榜拿开源的问题集训练。

目前看如果 claude 能把 thinking prompt 做出来,似乎能直接起飞?

claude憋了这么久希望能有个大动作,openai感觉是已经没活了

1 个赞