大模型综合性能天梯定位表,个人主观看法(已更新Gemini-2.5-Pro-0506、Qwen-3、国产模型)

openAI Anthropic Google xAI DeepSeek Alibaba Other
o3 Custom(Deep Research)
o3-high
o3
Gemini-2.5-Pro-0506/Gemini-2.5-Pro-0325
o1-Pro
Claude-3.7-Sonnet-Thinking-cot64K
o1-high
o4-mini-high Claude-3.7-Sonnet-Thinking-cot16K
o1
o1-Preview
Gemini-2.5-Flash-Preview-0417
o3-mini-high
o4-mini-medium Grok 3-mini-beta-high
Qwen 3-235B-A22B-128K
o3-mini-medium DeepSeek R1-128K
o4-mini-low
Grok 3-beta-Thinking DeepSeek R1-64K QWQ-MAX-Preview-32K
o3-mini-low Gemini-2.0-Flash-Thinking-Exp-0121 Grok 3-mini-beta Qwen 3-32B-128K Doubao-1.5-Pro-Thinking
GPT-4.5-Preview QWQ-32B-32K
Claude-3.7-Sonnet Grok 3-beta 商汤日日新V6.0(推理版)
GPT-4.1 Gemini-2.0-Pro-Exp-0205 /Gemini-2.0-Pro-Exp-1206 Qwen 3-30B-A3B
o1-mini Gemini-2.0-Flash-Thinking-Exp-1219 DeepSeek V3-0324
GPT-4o-0326 混元T1(深度思考)
GPT-4o-0122 Claude-3.5-Sonnet-1022 Qwen 2.5 MAX-0125
GPT-4o-1120
GPT-4o-0903 Claude-3.5-Sonnet-0620
Gemini-Exp-1127 /Gemini-Exp-1114
DeepSeek V3
GPT-4o-0806
GPT-4.1-mini Gemini-2.0 Flash-Exp
Gemini-1.5 Pro-Exp-0801/Gemini-1.5 Pro-Exp-0827 Grok-2-1212
GPT-4o-0523 Claude-3-Opus Grok-2-Beta Qwen 2.5 MAX-0919 Doubao-1.5-pro
GPT-4-Turbo-0409
GPT-4-Turbo-0121
GPT-4-Turbo-1106 Qwen 2.5 Plus
GPT-4-0314/GPT-4-0603 Gemini-2.0-Flash-Lite Qwen 2.5-72B
Gemini-1.5 Pro
Claude-3.5-Haiku Qwen 2.5-32B
GPT-4.1-nano Gemma 3-27B Qwen-MAX-0428
Gemini-1.5-Flash-002 DeepSeek-V2.5-1210
GPT-4o-mini Claude-3-Sonnet Gemini-1.5-Flash DeepSeek-V2.5 Qwen 2-72B
DeepSeek V2-0628
Claude 2 Gemini-1.5-Flash-8B DeepSeek V2 Qwen 1.5-72B
Claude 3 Haiku Gemma 2-27B Qwen 2-32B
Claude 1.2 Gemini-1.0-Pro DeepSeek-67b
Grok 1.5
Claude Grok Qwen 1.5-32B
Qwen 72B
GPT-3.5-Turbo
GPT-3.5
97 Likes

为什么 Claude-3.7-Sonnet-Thinking-128k > Claude-3.7-Sonnet-Thinking-64k
理论来说两个不是一样的吗

12 Likes

思维链长度不一样

相当于两倍的思考量

12 Likes

这个不会影响性能吧? 应该?
这个不是上下文窗口长度吗,思维链不会x2吧

17 Likes

按照Anthropic说法,思维链的长度,直接实测影响推理能力和数学计算

23 Likes

哦哦懂了,感谢解惑,看其他家好像只是影响上下文程度,没想到这个还藏的挺深

18 Likes

话说佬友是不是忘了google的gemma系列

18 Likes

写不下了。

18 Likes

绷不住了 :tieba_025:

15 Likes

gemma一般来说就是上一代gemini flash 的微调后训练的开源版,gemma 3-27b的性能几乎和上一代Gemini-1.5-flash-002几乎一样。

17 Likes

哇好棒的总结
不过这里的“性能”指的是什么呢?感觉大模型的排序还是挺取决于评价维度的。

20 Likes

学习了。
中间有点不对,gemma3的吐token速度是真的慢(官网版)
不如flash一根 :tieba_025:,所以性能不如1.5-flash :tieba_025:

18 Likes

这个天梯,还是太片面了

19 Likes

mmlu math 几乎都是上一代的水准,相当于2.0 flash全面推广后,把老的1.5 flash 002(也就是1.5 flash 最后的后训练改进版,微调一下,阉割点规模压缩蒸馏到27b等各种里面)

7 Likes

我看其他人使用的体验感觉挺不错的,如果只是上一代模型微调的话,会表现的这样不错吗? (排除速度很慢)

4 Likes

nb 真做出来了

4 Likes

看你能不能接受Gemini -1.5 flash 002,Gemini-1.5 flash -8b

毕竟单卡多模还是无敌的,如果只是处理文本(文字、代码、翻译、问答等)不见得比得过Qwen 2.5-32b

4 Likes

懂了懂了

4 Likes

你的权重是那些?

2 Likes

claude 3 Opus已经沦落至此了吗 :tieba_087:唏嘘啊

2 Likes