openAI | Anthropic | xAI | DeepSeek | Alibaba | Other | |
---|---|---|---|---|---|---|
o3 Custom(Deep Research) | ||||||
o1 pro | Gemini-2.5-Pro-Exp-0325 | |||||
Claude-3.7-Sonnet-Thinking-cot128k | ||||||
o1 | Claude-3.7-Sonnet-Thinking-cot64k | |||||
Claude-3.7-Sonnet-Thinking-cot32k | ||||||
Claude-3.7-Sonnet-Thinking-cot16k | ||||||
o3-mini-high | Grok 3-beta-Thinking | |||||
o1-Preview | Gemini-2.0-Flash-Thinking-Exp-0314-1m | DeepSeek R1-164k | ||||
Gemini-2.0-Flash-Thinking-Exp-0121-1m | DeepSeek R1-128k | Qwen-2.5 MAX-Preview-32k | ||||
o3-mini-medium | Gemini-2.0-Flash-Thinking-Exp-0314-32k | DeepSeek R1-64k | ||||
GPT-4.5-Preview | Gemini-2.0-Flash-Thinking-Exp-0121-32k | |||||
o3-mini-low | Grok 3-beta | |||||
Claude-3.7-Sonnet | Gemini-2.0-Flash-Thinking-Exp-1219 | |||||
o1-mini | Gemini-2.0-Pro-Exp-0205 | DeepSeek V3-0324 | QWQ-32b-32k | |||
GPT-4o-0328 | Gemini-2.0-Pro-Exp-1206 | |||||
Gemini-Exp-1127 | ||||||
GPT-4o-0122 | Gemini-Exp-1114 | |||||
GPT-4o-1120 | Claude-3.6-Sonnet-1022 | Qwen-2.5 MAX-0125 | ||||
GPT-4o-0903 | ||||||
Claude-3.5-Sonnet-0620 | ||||||
DeepSeek V3 | ||||||
Gemini-2.0-Flash-Exp | ||||||
GPT-4o-0806 | Claude-3-Opus | Gemini-1.5-Pro-Exp-002 | ||||
GPT-4o-0513 | Claude-3-Opus(New) | Gemini-1.5-Pro-Exp-0827 | QWQ-32B-Preview | |||
GPT-4 Turbo-0409 | Gemini-1.5-Pro-Exp-0801 | Step-2-16k-202411 | ||||
GPT-4 Turbo-0125 | Grok 2-1212 | Minimax-Text-01-4m | ||||
GPT-4 Turbo-1106 | Qwen-MAX-32k-240919 | Doubao-1.5-pro | ||||
GPT-4-0613 | Gemini-2.0-Flash-lite | Grok 2-beta | Qwen-2.5-72b | glm-zero-preview | ||
GPT-4-0314 | Gemini-1.5-Pro-001 | |||||
Claude-3.5-Haiku | Gemini-1.5-Flash-002 | DeepSeek V2.5-1210 | ||||
GPT-4-Custom-Preview(New bing) | DeepSeek V2.5 | |||||
Gemini-1.0-Ultra | Grok 2-mini-beta | Qwen-MAX-32k-240428 | ||||
GPT-4-Custom-0314(New bing) | Claude-3-Sonnet | DeepSeek V2-0724 | Qwen-2-72b | |||
GPT-4-Custom-0613(New bing) | DeepSeek V2-0628 | Qwen-2.5-32b | glm-4-plus | |||
GPT-4o mini | Gemini-1.5-Flash | DeepSeek V2 | Yi-lightning | |||
Claude-3-Haiku | Gemini-1.0-Pro | |||||
Claude-2.1 | Gemini-1.5-Flash-8b | Doubao-lite-1.5 | ||||
Claude-2 | Grok 1.5 | Qwen-1.5-72b | Doubao-pro | |||
Qwen-2.5-14b | ||||||
Grok-beta | Qwen-2-32b | |||||
DeepSeek-67b | Qwen-1.5-32b | |||||
Qwen-72b | ||||||
Qwen-2-14b | ||||||
Qwen-32b | ||||||
GPT-3.5 Turbo-0125 | ||||||
GPT-3.5 Turbo-1106 | ||||||
GPT-3.5 Turbo-0613 | ||||||
GPT-3.5 Turbo-0314 | ||||||
GPT-3.5 |
74 个赞
为什么 Claude-3.7-Sonnet-Thinking-128k
> Claude-3.7-Sonnet-Thinking-64k
。
理论来说两个不是一样的吗
9 个赞
思维链长度不一样
相当于两倍的思考量
10 个赞
这个不会影响性能吧? 应该?
这个不是上下文窗口长度吗,思维链不会x2吧
15 个赞
按照Anthropic说法,思维链的长度,直接实测影响推理能力和数学计算
21 个赞
哦哦懂了,感谢解惑,看其他家好像只是影响上下文程度,没想到这个还藏的挺深
16 个赞
话说佬友是不是忘了google的gemma系列
16 个赞
写不下了。
15 个赞
绷不住了
13 个赞
gemma一般来说就是上一代gemini flash 的微调后训练的开源版,gemma 3-27b的性能几乎和上一代Gemini-1.5-flash-002几乎一样。
12 个赞
哇好棒的总结
不过这里的“性能”指的是什么呢?感觉大模型的排序还是挺取决于评价维度的。
15 个赞
学习了。
中间有点不对,gemma3的吐token速度是真的慢(官网版)
不如flash一根 ,所以性能不如1.5-flash
16 个赞
这个天梯,还是太片面了
17 个赞
mmlu math 几乎都是上一代的水准,相当于2.0 flash全面推广后,把老的1.5 flash 002(也就是1.5 flash 最后的后训练改进版,微调一下,阉割点规模压缩蒸馏到27b等各种里面)
5 个赞
我看其他人使用的体验感觉挺不错的,如果只是上一代模型微调的话,会表现的这样不错吗? (排除速度很慢)
2 个赞
nb 真做出来了
2 个赞
看你能不能接受Gemini -1.5 flash 002,Gemini-1.5 flash -8b
毕竟单卡多模还是无敌的,如果只是处理文本(文字、代码、翻译、问答等)不见得比得过Qwen 2.5-32b
2 个赞
懂了懂了
2 个赞
你的权重是那些?
1 个赞
claude 3 Opus已经沦落至此了吗 唏嘘啊
1 个赞