openAI | Anthropic | xAI | DeepSeek | Alibaba | Other | |
---|---|---|---|---|---|---|
o3 Custom(Deep Research) | ||||||
o3-high | ||||||
o3 | ||||||
Gemini-2.5-Pro-0506/Gemini-2.5-Pro-0325 | ||||||
o1-Pro | ||||||
Claude-3.7-Sonnet-Thinking-cot64K | ||||||
o1-high | ||||||
o4-mini-high | Claude-3.7-Sonnet-Thinking-cot16K | |||||
o1 | ||||||
o1-Preview | ||||||
Gemini-2.5-Flash-Preview-0417 | ||||||
o3-mini-high | ||||||
o4-mini-medium | Grok 3-mini-beta-high | |||||
Qwen 3-235B-A22B-128K | ||||||
o3-mini-medium | DeepSeek R1-128K | |||||
o4-mini-low | ||||||
Grok 3-beta-Thinking | DeepSeek R1-64K | QWQ-MAX-Preview-32K | ||||
o3-mini-low | Gemini-2.0-Flash-Thinking-Exp-0121 | Grok 3-mini-beta | Qwen 3-32B-128K | Doubao-1.5-Pro-Thinking | ||
GPT-4.5-Preview | QWQ-32B-32K | |||||
Claude-3.7-Sonnet | Grok 3-beta | 商汤日日新V6.0(推理版) | ||||
GPT-4.1 | Gemini-2.0-Pro-Exp-0205 /Gemini-2.0-Pro-Exp-1206 | Qwen 3-30B-A3B | ||||
o1-mini | Gemini-2.0-Flash-Thinking-Exp-1219 | DeepSeek V3-0324 | ||||
GPT-4o-0326 | 混元T1(深度思考) | |||||
GPT-4o-0122 | Claude-3.5-Sonnet-1022 | Qwen 2.5 MAX-0125 | ||||
GPT-4o-1120 | ||||||
GPT-4o-0903 | Claude-3.5-Sonnet-0620 | |||||
Gemini-Exp-1127 /Gemini-Exp-1114 | ||||||
DeepSeek V3 | ||||||
GPT-4o-0806 | ||||||
GPT-4.1-mini | Gemini-2.0 Flash-Exp | |||||
Gemini-1.5 Pro-Exp-0801/Gemini-1.5 Pro-Exp-0827 | Grok-2-1212 | |||||
GPT-4o-0523 | Claude-3-Opus | Grok-2-Beta | Qwen 2.5 MAX-0919 | Doubao-1.5-pro | ||
GPT-4-Turbo-0409 | ||||||
GPT-4-Turbo-0121 | ||||||
GPT-4-Turbo-1106 | Qwen 2.5 Plus | |||||
GPT-4-0314/GPT-4-0603 | Gemini-2.0-Flash-Lite | Qwen 2.5-72B | ||||
Gemini-1.5 Pro | ||||||
Claude-3.5-Haiku | Qwen 2.5-32B | |||||
GPT-4.1-nano | Gemma 3-27B | Qwen-MAX-0428 | ||||
Gemini-1.5-Flash-002 | DeepSeek-V2.5-1210 | |||||
GPT-4o-mini | Claude-3-Sonnet | Gemini-1.5-Flash | DeepSeek-V2.5 | Qwen 2-72B | ||
DeepSeek V2-0628 | ||||||
Claude 2 | Gemini-1.5-Flash-8B | DeepSeek V2 | Qwen 1.5-72B | |||
Claude 3 Haiku | Gemma 2-27B | Qwen 2-32B | ||||
Claude 1.2 | Gemini-1.0-Pro | DeepSeek-67b | ||||
Grok 1.5 | ||||||
Claude | Grok | Qwen 1.5-32B | ||||
Qwen 72B | ||||||
GPT-3.5-Turbo | ||||||
GPT-3.5 |
97 Likes
为什么 Claude-3.7-Sonnet-Thinking-128k
> Claude-3.7-Sonnet-Thinking-64k
。
理论来说两个不是一样的吗
12 Likes
思维链长度不一样
相当于两倍的思考量
12 Likes
这个不会影响性能吧? 应该?
这个不是上下文窗口长度吗,思维链不会x2吧
17 Likes
按照Anthropic说法,思维链的长度,直接实测影响推理能力和数学计算
23 Likes
哦哦懂了,感谢解惑,看其他家好像只是影响上下文程度,没想到这个还藏的挺深
18 Likes
话说佬友是不是忘了google的gemma系列
18 Likes
写不下了。
18 Likes
绷不住了
15 Likes
gemma一般来说就是上一代gemini flash 的微调后训练的开源版,gemma 3-27b的性能几乎和上一代Gemini-1.5-flash-002几乎一样。
17 Likes
哇好棒的总结
不过这里的“性能”指的是什么呢?感觉大模型的排序还是挺取决于评价维度的。
20 Likes
学习了。
中间有点不对,gemma3的吐token速度是真的慢(官网版)
不如flash一根 ,所以性能不如1.5-flash
18 Likes
这个天梯,还是太片面了
19 Likes
mmlu math 几乎都是上一代的水准,相当于2.0 flash全面推广后,把老的1.5 flash 002(也就是1.5 flash 最后的后训练改进版,微调一下,阉割点规模压缩蒸馏到27b等各种里面)
7 Likes
我看其他人使用的体验感觉挺不错的,如果只是上一代模型微调的话,会表现的这样不错吗? (排除速度很慢)
4 Likes
nb 真做出来了
4 Likes
看你能不能接受Gemini -1.5 flash 002,Gemini-1.5 flash -8b
毕竟单卡多模还是无敌的,如果只是处理文本(文字、代码、翻译、问答等)不见得比得过Qwen 2.5-32b
4 Likes
懂了懂了
4 Likes
你的权重是那些?
2 Likes
claude 3 Opus已经沦落至此了吗 唏嘘啊
2 Likes