-
gemini 1.5 pro 002 综合评分与 gpt 4o(chatgpt 4o latest)持平。数学评分 57,仅次 o1-mini 和 o1-preview,世界第三。
-
qwen2.5 72b 综合评分接近 llama3.1 405b。代码评分 56,仅次 claude 3.5 sonnet 的 60 分,世界第二。
-
gemini 1.5 flash 002 综合评分 49,超过 deepseek 2.5 和 gpt 4o mini。
18 个赞
果然coding还是得看claude
6 个赞
无敌的存在。
3 个赞
qwen2.5这么强
1 个赞
感觉不准,但已经是目前最好的排行榜了
分数是准的,但是保不齐有模型为了冲榜拿开源的问题集训练。
目前看如果 claude 能把 thinking prompt 做出来,似乎能直接起飞?
claude憋了这么久希望能有个大动作,openai感觉是已经没活了
1 个赞