【原创长文】关于GPT4.5,你想知道的一切【250304更新】lmarena评分出来了

本文原创,L站首发,如有错误,感谢指正
欢迎转载,请注明作者和原文链接

现在的4.5不是正式版是preview版

价格

输入$75,输出$150,单位是美元,你没看错,是现在最贵的模型
是历史上首个突破1000人民币/mt大关的模型吧,性能先不说,价格绝对“遥遥领先”
输入如果命中缓存,价格是50%。输出没有缓存一说

参考以前推理模型最贵的o1是15/60。另外o3mini-high是2.2/4.4,r1是1.1/2.2
主流非纯推理模型最贵3.7是3/15。另外4o是2.5/10,3.5opus是15/75(几乎没人用)

按照openai以前的惯例,o1-preview版与o1正式版价格是一样的,所以不要指望降价

具体用一次多少钱呢,大概输入¥0.5/k,输出¥1/k,
如果小输入大输出类型,例如数学题,输出16k用满,一次提问上限是¥16
如果大输入大输出型,例如书籍/论文总结/翻译,112k输入16k输出一次提问上限是¥80

评测

Sam自己已经给用户打了预防针,不要太高预期,期望越大,失望越大
而且这么重大版本更新发布会,老板Sam却没有像以往惯例出席,哪怕录个视频支持下都没有,是不是很奇怪?有没有可能是自己都没什么信心?Sam自己的说法是在医院带娃

结合前一段时间,Sam同时公布了4.5和5.0,这也很奇怪,哪有4.5还没出,先公布5.0的,综上我瞎推测,4o,4.5和5.0是三个平行的项目,4.5在4.0上线时就在开发(所以训练数据才到23年10月,比4o训练数据还早8个月),4.5是非思维链路线的最后产物,是路线之争的弃子,露下脸报个天价,给5.0铺路哄抬物价,让$200会员觉得物有所值,根本也没打算重点当主力推。5.0(即o3改名)才是真正的主力

官网评测,难免自卖自夸,看看就好,客观公正还是要等第三方

更强的世界知识

更低的幻觉率

编程

lmarena

官方图





实际工作场景性能暂不清楚,但是即便编程很强,也不会有多少人用,claude3.7已经很贵了,gpt4.5是3.7输入价格的25倍,输出价格的10倍。

最后很可能的实际场景是,码农继续用3.7为主,3.7实在搞不定的,用3.7thinking。还搞不定的,用4.5,o3mini-high,r1,grok3thinking,这些碰碰运气,但4.5不会成为主流。
例子:https://x.com/cursor_ai/status/1895210110714290302

另外代码因为输出量大,次数多,一段代码可能反复改几十次。对输出速度要求较高,这也是为什么推理模型在码农中不太受待见的原因,4.5虽然不是推理模型,但速度比推理模型还慢很多,API现在输出速度只有10~20tps

Cursor:4.5已上线
但肯定不会在$20会员里给不限量用的,否则亏死
佬友说只能用量

Winsurf:4.5已上线

Cline/Roo Code
用API,编程每次都要传几十k的codebase上去,token消耗量极大,而且是吃饭的家伙,经常是全天在使用,这么贵码农也用不起。证据是下图,OpenRouter的所有用户总token消耗,不看绝对值,看实际用途占比
3.7主要消耗在Cline/Roo Code/酒馆里,
4.5主要消耗在OpenRouter Chatroom里,很少有人真的用在Cline/Roo Code里(哪怕是测试)
当然现在4.5上线时间短,过段时间再观察


数学能力

Lmarena

写作能力

lmarena

官方

情商

据说较高



lmarena评测

livebench评测

Chat版

官网$200Pro用户已上线(网页/ios/安卓/PC)
限量暂不清楚

$20的plus用户要下周上线,可想而知限量会很少

Peo已上线,每天赠送3000积分,一次4.5消耗2535积分

Perplexity已上线,付费会员支持每天10次4.5,免费会员没有

lmarena只有评分,但单选模型免费用的模型里面并没有4.5,估计太贵了试不起

官网API:已上线

测试:https://platform.openai.com/playground/
没有Tier限制

OpenRouter API:已上线

参考:OpenRouter
测试(可联网):Chatroom | OpenRouter
CherryStudio可以用

Azure API:已上线

逆向API

Chat01已上线4.5,逆向来源是$200会员,10积分一次,需是付费用户,包月会员叠加75折优惠码大概$40会员¥0.24/次,$20会员0.37次,$10会员0.61/次。
单买积分折合¥1.46/次
可以用于API

功能

多模态

支持识别图片
不支持读音频,视频,读屏幕

高级语音模式

不支持

推理

4.5聪明,但不是推理模型,直接吐字,没有推理过程,Sam说4.5是最后一代非推理模型

上下文窗口

上下文128k,最大输出16k,与4o完全相同,没有任何提升

参考o3mini是上下文200k,思考最大84k,最终输出最大16k
3.7是上下文200k,思考最大128k,最终输出最大128k(共享)

刚才实测4.5,发现个很大的问题,虽然官方说输出是16kt,但是官方API,OpenRouterAPI,chat逆向,输出实际都只能输出2kt,超出就截断
不知道是初期临时限制,还是以后一直如此,还是有其他参数或提示词能突破限制
实测输入几十k没问题,主要是输出问题

这意味着
无法做复杂的数学步骤
无法写复杂的代码
无法做稍长的翻译或写作

吐字速度

官网Chat:也佬友反应很快,跟4o差不多。也有人反应很慢

官网API:慢,目测有20tps

OpenRouter的API是10tps,非常慢,参考o3mini是90tps。
4.5虽然不是思考模型,但是总输出耗时,比思考模型还长很多
我怀疑是为了让用户充值$200会员,故意打压API速度

训练数据截止时间

4.5的训练数据是2023年10月,参考4o是24年6月,这怎么还倒退了

联网方法

Chat版联网,API本身不能联网

Ⓐ可以CherryStudio+Lavity API联网,每月免费1000次

ⒷCherryStudio+OpenRouter,选模型那里不要点"管理",要点"添加" →
openai/gpt-4.5-preview:online,联网额外收$4/千url,默认5url,可以自己加参数改

ⒸNextChat+WebPilot插件:联网免费,但速度慢

降智问题

还不清楚,以openai以往的尿性,不乐观,先占坑
有佬友反应$200会员4.5无法联网,无法生成图片,无法放在画布,PoW正常,暂无法确定是因为匆忙上线的bug,还是降智

一些个人想法

GPT4.5 vs Grok

全能型大模型(水桶模型)只有gpt,grok,gemini,豆包,4.5与grok3性能相近,Grok性价比可比4.5高太多了
再加上gpt各种降智,近期美国全能型大模型,可能也就grok3最稳定

其他大模型都不是全能型
claude的Chat版没有联网/语音/视觉/画图
r1没有语音/视觉/画图
Perplexity/秘塔搜索好用,但没有语音/视觉,模型也不是自己的

GPT4.5 vs Claude3.7

本来前两天觉得3.7thinking,输出token量和成本翻了两三倍,太贵了
今天和4.5一比,嗯,3.7thinking真香

GPT4.5 vs R1

API价格差了70倍,Chat一个免费不限量,一个要$200会员,抛开价格比性能就是耍流氓
合着这4.5就是帮着r1,一起来打压nvidia股价的吧

GPT4.5 vs Deep research

根据4.5的技术报告,deep research(据说是o3不是o3mini)在多项指标都显著超过了4.5,这个技术报告没有把deep research当做一项功能对待,而是当做一个独立的模型对待。
考虑到现在deep research已经下放到$20会员每月10次,包月逆向价格也低到只有¥2.5一次,很多场景,可能用deep research比4.5更经济效果更好
参考:https://cdn.openai.com/gpt-4-5-system-card.pdf

对Nvidia股价的影响

上次r1上线引起nvidia暴跌6000亿美元,原因是投资者觉得靠算法也可以解决算力问题

这次4.5一出,立即引起了nvidia股价的下跌,开盘135,收盘120,跌掉了两千多亿美元,相当于整个openai的估值
原因我猜可能是投资者觉得4.5价格这么高,性能提升有限,证明靠买显卡堆算力的路子,最终肯定都是用户买单,可能快超出用户的支付能力了,快走不通了
另外佬友提醒同一天,也有nvidia发财报,大盘下跌等其他因素,下跌不一定只是4.5的原因

大模型发展范式的变化

4.5高昂的成本,有限的性能提升,证明力大飞砖砸显卡预训练的路子,已经不太走得通了
以后的发展范式逐渐转到
Ⓐ思维链:Sam也说了,4.5是openai最后一个非思维链模型
ⒷMoE等通过算法优化,开源共建,降低成本,通过各大云服务商分别部署,众星捧月,解决推理算力瓶颈,r1的路线
ⒸAgent

参考

官方新闻:https://openai.com/index/introducing-gpt-4-5/
官方视频:https://www.youtube.com/watch?v=cfRYp0nItZ8
详细技术报告:https://cdn.openai.com/gpt-4-5-system-card.pdf
评测:https://x.com/scaling01/status/1895180769171005464

95 Likes

好帖 占个首评

1 Like

close ai蜂了,估计不如3.7

这也太拉了 怪不得奥特曼都没来

坐等评测

多少次限制

就这还preview?

补充一下,目前官网4.5奇快无比,和4o差不多

5 Likes

已经说了编程不是强项 :flushed:

期待后续

再补充一下官网有但实际无法启用的功能
有种赶鸭子上架的感觉…

无法联网

无法生成图片

无法放在画布中

3 Likes

cursor上了,但是按量付费(cursor 安利 4.5

感谢佬友整理分享!!

pro账号降智了?
不是,4.5刚出来就降智?

1 Like

怎么说 哪里看出来的 肉身在外应该不是节点问题

1 Like

感谢佬友的分享

1 Like

感谢佬友分享

1 Like

这些拓展功能全都不能用,和之前降智的表现很像
不过也不排除他确实草台班子,模型的拓展功能没适配好

1 Like

太贵了啊

1 Like

感谢佬友分享!

1 Like