【思考】混合推理模型的缺陷?Gemini 2.5Flash 的推理效率竟然远远低于其他思考模型!

最近看到佬友总结的各个推理模型的API调用价格

输入价格 输出价格 模型名称
0.10 美元 0.40 美元 Gemini-2.0-Flash-Thinking-Exp-0121
0.30 美元 0.50 美元 Grok-3-mini
0.13 美元 0.54 美元 QWQ-32B
0.15 美元 3.50 美元 Gemini-2.5-Flash-Preview-0417
1.10 美元 4.40 美元 o4-mini
1.10 美元 4.40 美元 o3-mini

现在我们将大语言模型相同token数量的输出价格除以输入价格定义为推理成本比,每个模型的推理成本比分别为
Gemini-2.0-Flash-Thinking-Exp-0121: 4.00
Grok-3-mini: 1.67
QWQ-32B: 4.15
Gemini-2.5-Flash-Preview-0417: 23.33
o4-mini: 4.00
o3-mini: 4.00

可以看到G2.5F开启推理模式后其推理成本比达到了惊人的23.33,是o4模型的约6倍。

我刚开始怀疑是TPU的推理缺陷,但是发现通过Google推出了2.0Flash Thinking的成本比并不高,所以是不是因为 2.5F 是混合推理模型,所以推理效率会远低于传统的推理模型?

4 Likes

令人感到忍俊不禁

3 Likes

o3-mini 和 o4-mini 输出应该是 $4.4 吧

1 Like

感谢佬友勘误

和推理效率没关系吧?这是整个模型的输出价格,哪怕关掉推理他也是这个价。

2.5 Flash 关闭推理之后输出价格是0.60$

这个应该是商业定价,不代表绝对成本,也不完全等同推理效率。

因为o4 mini实际表现不佳,Gemini-2.5-Flash-Preview-0417价格就上探了。(类似当年Claude 3.5-haiku对比上代涨价,不过谷歌还是良心的,关闭推理后,大致和上一代持平)

Gemini-2.0-Flash
Gemini-2.0-Flash-Thinking
上一代,两者的价格可是完全一样的,因为当时有o1 mini和o3 mini的竞争

4 Likes

每没错,酒馆表现远不如Pro

不会吧?

感谢佬友解答

感觉现在模型太多了,而且能力也都不差,切换个模型感受到的差异不是特别明显~

2 Likes

在 test-time 也就是模型使用时,是否推理对于模型的算力成本并没有本质区别,刚刚看了眼文档的确开推理的价格会高,那只能说明 Google 商业头脑 :tieba_087:

2 Likes

论性价比还是deepseek香

有区别。原因很简单,推理成本随生成长度的增长是超线性的,而推理模型通常工况下的生成长度远超普通模型。

你看,Deepseek R1 的架构也和 V3 一模一样,但就是会贵很多。


有人可能在这里会问,那 prefill 也是超线性的成本,为啥没有阶梯,这里我想原因更微妙一些。prefill 对于每个请求都是可以自并行的,decode 做不到,所以说在实际推理情况下 prefill 的并行度肯定还是远高于 decode 的,因此生成文本长会大幅降低整个推理系统的并行性(木桶效应导致吞吐量下降)从而拉高成本。

2 Likes

You’re right

没什么其他理由,就是故意的,同一个模型,故意针对推理模型调高价格,原因很简单:我追上OpenAI了,用户也吸得差不多了,是时候提价了

但我还是爱谷歌,虽然2.5Flash不及我预期,但这价格也很良心了,更何况AI Studio近乎完全免费,还刚白嫖15个月会员

3 Likes

说道理还是oai重点放在了agent llm上 单个模型能力开始不如谷歌了

不过未来说不定是agent的天下 谷歌继续后来居上吧

话虽如此,但 Claude 3.7 Sonnet 价格一致

谷歌在Agent上发力比OAI要狠,Next25大会上宣布了A2A协议,并且允许开发者构建Agent,深度融合了自己的云服务

那是因为 Claude 3.5 / 3.7 的利润是可预见的高的离谱(其实包括 4o 都是一样的),高到是不是要计较上面我提到的差异都是无关紧要的事情了

1 Like

这话说的是对的

重新评估了一下你说的,我觉得是有道理的,主要是R1和V3同架构而定价不同让我信服了

但有一个不太能解释的,那就是为什么Gemini 2.0 Flash thinking价格和普通的2.0一样