大模型综合性能天梯定位表，个人主观看法（已更新Gemini-2.5-Pro-Exp-0325，GPT-4o-0328）

PSP · 2025 年3 月 21 日 16:39

openAI	Anthropic	Google	xAI	DeepSeek	Alibaba	Other
o3 Custom（Deep Research）
o1 pro		Gemini-2.5-Pro-Exp-0325
	Claude-3.7-Sonnet-Thinking-cot128k
o1	Claude-3.7-Sonnet-Thinking-cot64k
	Claude-3.7-Sonnet-Thinking-cot32k
	Claude-3.7-Sonnet-Thinking-cot16k
o3-mini-high			Grok 3-beta-Thinking
o1-Preview		Gemini-2.0-Flash-Thinking-Exp-0314-1m		DeepSeek R1-164k
		Gemini-2.0-Flash-Thinking-Exp-0121-1m		DeepSeek R1-128k	Qwen-2.5 MAX-Preview-32k
o3-mini-medium		Gemini-2.0-Flash-Thinking-Exp-0314-32k		DeepSeek R1-64k
GPT-4.5-Preview		Gemini-2.0-Flash-Thinking-Exp-0121-32k
o3-mini-low			Grok 3-beta
	Claude-3.7-Sonnet	Gemini-2.0-Flash-Thinking-Exp-1219
o1-mini		Gemini-2.0-Pro-Exp-0205		DeepSeek V3-0324	QWQ-32b-32k
GPT-4o-0328		Gemini-2.0-Pro-Exp-1206
		Gemini-Exp-1127
GPT-4o-0122		Gemini-Exp-1114
GPT-4o-1120	Claude-3.6-Sonnet-1022				Qwen-2.5 MAX-0125
GPT-4o-0903
	Claude-3.5-Sonnet-0620
				DeepSeek V3
		Gemini-2.0-Flash-Exp
GPT-4o-0806	Claude-3-Opus	Gemini-1.5-Pro-Exp-002
GPT-4o-0513	Claude-3-Opus（New）	Gemini-1.5-Pro-Exp-0827			QWQ-32B-Preview
GPT-4 Turbo-0409		Gemini-1.5-Pro-Exp-0801				Step-2-16k-202411
GPT-4 Turbo-0125			Grok 2-1212			Minimax-Text-01-4m
GPT-4 Turbo-1106					Qwen-MAX-32k-240919	Doubao-1.5-pro
GPT-4-0613		Gemini-2.0-Flash-lite	Grok 2-beta		Qwen-2.5-72b	glm-zero-preview
GPT-4-0314		Gemini-1.5-Pro-001
	Claude-3.5-Haiku	Gemini-1.5-Flash-002		DeepSeek V2.5-1210
GPT-4-Custom-Preview（New bing）				DeepSeek V2.5
		Gemini-1.0-Ultra	Grok 2-mini-beta		Qwen-MAX-32k-240428
GPT-4-Custom-0314（New bing）	Claude-3-Sonnet			DeepSeek V2-0724	Qwen-2-72b
GPT-4-Custom-0613（New bing）				DeepSeek V2-0628	Qwen-2.5-32b	glm-4-plus
GPT-4o mini		Gemini-1.5-Flash		DeepSeek V2		Yi-lightning
	Claude-3-Haiku	Gemini-1.0-Pro
	Claude-2.1	Gemini-1.5-Flash-8b				Doubao-lite-1.5
	Claude-2		Grok 1.5		Qwen-1.5-72b	Doubao-pro
					Qwen-2.5-14b
			Grok-beta		Qwen-2-32b
				DeepSeek-67b	Qwen-1.5-32b
					Qwen-72b
					Qwen-2-14b
					Qwen-32b
GPT-3.5 Turbo-0125
GPT-3.5 Turbo-1106
GPT-3.5 Turbo-0613
GPT-3.5 Turbo-0314
GPT-3.5

chunkBurst · 2025 年3 月 21 日 16:47

为什么 Claude-3.7-Sonnet-Thinking-128k > Claude-3.7-Sonnet-Thinking-64k。
理论来说两个不是一样的吗

PSP · 2025 年3 月 21 日 16:48

思维链长度不一样

相当于两倍的思考量

chunkBurst · 2025 年3 月 21 日 16:48

这个不会影响性能吧? 应该?
这个不是上下文窗口长度吗，思维链不会x2吧

PSP · 2025 年3 月 21 日 16:49

按照Anthropic说法，思维链的长度，直接实测影响推理能力和数学计算

chunkBurst · 2025 年3 月 21 日 16:49

哦哦懂了，感谢解惑，看其他家好像只是影响上下文程度，没想到这个还藏的挺深

chunkBurst · 2025 年3 月 21 日 16:51

话说佬友是不是忘了google的gemma系列

PSP · 2025 年3 月 21 日 16:51

写不下了。

chunkBurst · 2025 年3 月 21 日 16:51

绷不住了

PSP · 2025 年3 月 21 日 16:53

gemma一般来说就是上一代gemini flash 的微调后训练的开源版，gemma 3-27b的性能几乎和上一代Gemini-1.5-flash-002几乎一样。

moulai · 2025 年3 月 21 日 16:54

哇好棒的总结
不过这里的“性能”指的是什么呢？感觉大模型的排序还是挺取决于评价维度的。

chunkBurst · 2025 年3 月 21 日 16:55

学习了。
中间有点不对，gemma3的吐token速度是真的慢(官网版)
不如flash一根，所以性能不如1.5-flash

Jason141 · 2025 年3 月 21 日 16:59

这个天梯，还是太片面了

PSP · 2025 年3 月 21 日 16:59

mmlu math 几乎都是上一代的水准，相当于2.0 flash全面推广后，把老的1.5 flash 002（也就是1.5 flash 最后的后训练改进版，微调一下，阉割点规模压缩蒸馏到27b等各种里面）

chunkBurst · 2025 年3 月 21 日 17:00

我看其他人使用的体验感觉挺不错的，如果只是上一代模型微调的话，会表现的这样不错吗? (排除速度很慢)

Sam_Altman · 2025 年3 月 21 日 17:05

nb 真做出来了

PSP · 2025 年3 月 21 日 17:05

看你能不能接受Gemini -1.5 flash 002，Gemini-1.5 flash -8b

毕竟单卡多模还是无敌的，如果只是处理文本（文字、代码、翻译、问答等）不见得比得过Qwen 2.5-32b

chunkBurst · 2025 年3 月 21 日 17:06

懂了懂了

PSP · 2025 年3 月 21 日 17:10

你的权重是那些？

crystal · 2025 年3 月 21 日 17:17

claude 3 Opus已经沦落至此了吗唏嘘啊

话题		回复	浏览量
claude3.7、grok3、gpt4.5、gemini 2.0、o3 deepresearch都号称历史最强搞七捻三人工智能	65	1687	2025 年3 月 11 日
检测是否为满血版Claude 3.7 thinking的方法搞七捻三人工智能	59	2267	2025 年3 月 20 日
【原创长文】关于Gemini 2.5 Pro，你想知道的一切。250401：2.5pro支持Canvas啦【长期更新】搞七捻三 Gemini , 人工智能 , 纯水	226	7230	2025 年4 月 2 日
写论文，Claude 跟 o1 哪个更好？搞七捻三 ChatGPT , Claude , 人工智能 , 快问快答	90	2123	2025 年3 月 29 日
gemini-2.5-pro疑似正在推送中前沿快讯人工智能	116	1332	2025 年3 月 26 日

大模型综合性能天梯定位表，个人主观看法（已更新Gemini-2.5-Pro-Exp-0325，GPT-4o-0328）

相关话题