大模型综合性能天梯定位表,个人主观看法(已更新Gemini-2.5-Pro-Exp-0325,GPT-4o-0328)

openAI Anthropic Google xAI DeepSeek Alibaba Other
o3 Custom(Deep Research)
o1 pro Gemini-2.5-Pro-Exp-0325
Claude-3.7-Sonnet-Thinking-cot128k
o1 Claude-3.7-Sonnet-Thinking-cot64k
Claude-3.7-Sonnet-Thinking-cot32k
Claude-3.7-Sonnet-Thinking-cot16k
o3-mini-high Grok 3-beta-Thinking
o1-Preview Gemini-2.0-Flash-Thinking-Exp-0314-1m DeepSeek R1-164k
Gemini-2.0-Flash-Thinking-Exp-0121-1m DeepSeek R1-128k Qwen-2.5 MAX-Preview-32k
o3-mini-medium Gemini-2.0-Flash-Thinking-Exp-0314-32k DeepSeek R1-64k
GPT-4.5-Preview Gemini-2.0-Flash-Thinking-Exp-0121-32k
o3-mini-low Grok 3-beta
Claude-3.7-Sonnet Gemini-2.0-Flash-Thinking-Exp-1219
o1-mini Gemini-2.0-Pro-Exp-0205 DeepSeek V3-0324 QWQ-32b-32k
GPT-4o-0328 Gemini-2.0-Pro-Exp-1206
Gemini-Exp-1127
GPT-4o-0122 Gemini-Exp-1114
GPT-4o-1120 Claude-3.6-Sonnet-1022 Qwen-2.5 MAX-0125
GPT-4o-0903
Claude-3.5-Sonnet-0620
DeepSeek V3
Gemini-2.0-Flash-Exp
GPT-4o-0806 Claude-3-Opus Gemini-1.5-Pro-Exp-002
GPT-4o-0513 Claude-3-Opus(New) Gemini-1.5-Pro-Exp-0827 QWQ-32B-Preview
GPT-4 Turbo-0409 Gemini-1.5-Pro-Exp-0801 Step-2-16k-202411
GPT-4 Turbo-0125 Grok 2-1212 Minimax-Text-01-4m
GPT-4 Turbo-1106 Qwen-MAX-32k-240919 Doubao-1.5-pro
GPT-4-0613 Gemini-2.0-Flash-lite Grok 2-beta Qwen-2.5-72b glm-zero-preview
GPT-4-0314 Gemini-1.5-Pro-001
Claude-3.5-Haiku Gemini-1.5-Flash-002 DeepSeek V2.5-1210
GPT-4-Custom-Preview(New bing) DeepSeek V2.5
Gemini-1.0-Ultra Grok 2-mini-beta Qwen-MAX-32k-240428
GPT-4-Custom-0314(New bing) Claude-3-Sonnet DeepSeek V2-0724 Qwen-2-72b
GPT-4-Custom-0613(New bing) DeepSeek V2-0628 Qwen-2.5-32b glm-4-plus
GPT-4o mini Gemini-1.5-Flash DeepSeek V2 Yi-lightning
Claude-3-Haiku Gemini-1.0-Pro
Claude-2.1 Gemini-1.5-Flash-8b Doubao-lite-1.5
Claude-2 Grok 1.5 Qwen-1.5-72b Doubao-pro
Qwen-2.5-14b
Grok-beta Qwen-2-32b
DeepSeek-67b Qwen-1.5-32b
Qwen-72b
Qwen-2-14b
Qwen-32b
GPT-3.5 Turbo-0125
GPT-3.5 Turbo-1106
GPT-3.5 Turbo-0613
GPT-3.5 Turbo-0314
GPT-3.5
74 个赞

为什么 Claude-3.7-Sonnet-Thinking-128k > Claude-3.7-Sonnet-Thinking-64k
理论来说两个不是一样的吗

9 个赞

思维链长度不一样

相当于两倍的思考量

10 个赞

这个不会影响性能吧? 应该?
这个不是上下文窗口长度吗,思维链不会x2吧

15 个赞

按照Anthropic说法,思维链的长度,直接实测影响推理能力和数学计算

21 个赞

哦哦懂了,感谢解惑,看其他家好像只是影响上下文程度,没想到这个还藏的挺深

16 个赞

话说佬友是不是忘了google的gemma系列

16 个赞

写不下了。

15 个赞

绷不住了 :tieba_025:

13 个赞

gemma一般来说就是上一代gemini flash 的微调后训练的开源版,gemma 3-27b的性能几乎和上一代Gemini-1.5-flash-002几乎一样。

12 个赞

哇好棒的总结
不过这里的“性能”指的是什么呢?感觉大模型的排序还是挺取决于评价维度的。

15 个赞

学习了。
中间有点不对,gemma3的吐token速度是真的慢(官网版)
不如flash一根 :tieba_025:,所以性能不如1.5-flash :tieba_025:

16 个赞

这个天梯,还是太片面了

17 个赞

mmlu math 几乎都是上一代的水准,相当于2.0 flash全面推广后,把老的1.5 flash 002(也就是1.5 flash 最后的后训练改进版,微调一下,阉割点规模压缩蒸馏到27b等各种里面)

5 个赞

我看其他人使用的体验感觉挺不错的,如果只是上一代模型微调的话,会表现的这样不错吗? (排除速度很慢)

2 个赞

nb 真做出来了

2 个赞

看你能不能接受Gemini -1.5 flash 002,Gemini-1.5 flash -8b

毕竟单卡多模还是无敌的,如果只是处理文本(文字、代码、翻译、问答等)不见得比得过Qwen 2.5-32b

2 个赞

懂了懂了

2 个赞

你的权重是那些?

1 个赞

claude 3 Opus已经沦落至此了吗 :tieba_087:唏嘘啊

1 个赞