York_Ji
(York Ji)
1
最近看到佬友总结的各个推理模型的API调用价格
输入价格 |
输出价格 |
模型名称 |
0.10 美元 |
0.40 美元 |
Gemini-2.0-Flash-Thinking-Exp-0121 |
0.30 美元 |
0.50 美元 |
Grok-3-mini |
0.13 美元 |
0.54 美元 |
QWQ-32B |
0.15 美元 |
3.50 美元 |
Gemini-2.5-Flash-Preview-0417 |
1.10 美元 |
4.40 美元 |
o4-mini |
1.10 美元 |
4.40 美元 |
o3-mini |
现在我们将大语言模型相同token数量的输出价格除以输入价格定义为推理成本比,每个模型的推理成本比分别为
Gemini-2.0-Flash-Thinking-Exp-0121: 4.00
Grok-3-mini: 1.67
QWQ-32B: 4.15
Gemini-2.5-Flash-Preview-0417: 23.33
o4-mini: 4.00
o3-mini: 4.00
可以看到G2.5F开启推理模式后其推理成本比达到了惊人的23.33,是o4模型的约6倍。
我刚开始怀疑是TPU的推理缺陷,但是发现通过Google推出了2.0Flash Thinking的成本比并不高,所以是不是因为 2.5F 是混合推理模型,所以推理效率会远低于传统的推理模型?
4 Likes
KXG
(KXG)
3
o3-mini 和 o4-mini 输出应该是 $4.4 吧
1 Like
EFL
(雲 くもちゃん Ultra)
5
和推理效率没关系吧?这是整个模型的输出价格,哪怕关掉推理他也是这个价。
York_Ji
(York Ji)
6
2.5 Flash 关闭推理之后输出价格是0.60$
PSP
7
这个应该是商业定价,不代表绝对成本,也不完全等同推理效率。
因为o4 mini实际表现不佳,Gemini-2.5-Flash-Preview-0417价格就上探了。(类似当年Claude 3.5-haiku对比上代涨价,不过谷歌还是良心的,关闭推理后,大致和上一代持平)
Gemini-2.0-Flash
Gemini-2.0-Flash-Thinking
上一代,两者的价格可是完全一样的,因为当时有o1 mini和o3 mini的竞争
4 Likes
hooooooo
(hooooooo)
11
感觉现在模型太多了,而且能力也都不差,切换个模型感受到的差异不是特别明显~
2 Likes
EFL
(雲 くもちゃん Ultra)
12
在 test-time 也就是模型使用时,是否推理对于模型的算力成本并没有本质区别,刚刚看了眼文档的确开推理的价格会高,那只能说明 Google 商业头脑 
2 Likes
有区别。原因很简单,推理成本随生成长度的增长是超线性的,而推理模型通常工况下的生成长度远超普通模型。
你看,Deepseek R1 的架构也和 V3 一模一样,但就是会贵很多。
有人可能在这里会问,那 prefill 也是超线性的成本,为啥没有阶梯,这里我想原因更微妙一些。prefill 对于每个请求都是可以自并行的,decode 做不到,所以说在实际推理情况下 prefill 的并行度肯定还是远高于 decode 的,因此生成文本长会大幅降低整个推理系统的并行性(木桶效应导致吞吐量下降)从而拉高成本。
2 Likes
You’re right
没什么其他理由,就是故意的,同一个模型,故意针对推理模型调高价格,原因很简单:我追上OpenAI了,用户也吸得差不多了,是时候提价了
但我还是爱谷歌,虽然2.5Flash不及我预期,但这价格也很良心了,更何况AI Studio近乎完全免费,还刚白嫖15个月会员
3 Likes
说道理还是oai重点放在了agent llm上 单个模型能力开始不如谷歌了
不过未来说不定是agent的天下 谷歌继续后来居上吧
话虽如此,但 Claude 3.7 Sonnet 价格一致
谷歌在Agent上发力比OAI要狠,Next25大会上宣布了A2A协议,并且允许开发者构建Agent,深度融合了自己的云服务
那是因为 Claude 3.5 / 3.7 的利润是可预见的高的离谱(其实包括 4o 都是一样的),高到是不是要计较上面我提到的差异都是无关紧要的事情了
1 Like
这话说的是对的
重新评估了一下你说的,我觉得是有道理的,主要是R1和V3同架构而定价不同让我信服了
但有一个不太能解释的,那就是为什么Gemini 2.0 Flash thinking价格和普通的2.0一样