本文原创,L站首发,如有错误,感谢指正
欢迎转载,请注明作者和原文链接
现在的4.5不是正式版是preview版
价格
输入$75,输出$150,单位是美元,你没看错,是现在最贵的模型
是历史上首个突破1000人民币/mt大关的模型吧,性能先不说,价格绝对“遥遥领先”
输入如果命中缓存,价格是50%。输出没有缓存一说
参考以前推理模型最贵的o1是15/60。另外o3mini-high是2.2/4.4,r1是1.1/2.2
主流非纯推理模型最贵3.7是3/15。另外4o是2.5/10,3.5opus是15/75(几乎没人用)
按照openai以前的惯例,o1-preview版与o1正式版价格是一样的,所以不要指望降价
具体用一次多少钱呢,大概输入¥0.5/k,输出¥1/k,
如果小输入大输出类型,例如数学题,输出16k用满,一次提问上限是¥16
如果大输入大输出型,例如书籍/论文总结/翻译,112k输入16k输出一次提问上限是¥80
评测
Sam自己已经给用户打了预防针,不要太高预期,期望越大,失望越大
而且这么重大版本更新发布会,老板Sam却没有像以往惯例出席,哪怕录个视频支持下都没有,是不是很奇怪?有没有可能是自己都没什么信心?Sam自己的说法是在医院带娃
结合前一段时间,Sam同时公布了4.5和5.0,这也很奇怪,哪有4.5还没出,先公布5.0的,综上我瞎推测,4o,4.5和5.0是三个平行的项目,4.5在4.0上线时就在开发(所以训练数据才到23年10月,比4o训练数据还早8个月),4.5是非思维链路线的最后产物,是路线之争的弃子,露下脸报个天价,给5.0铺路哄抬物价,让$200会员觉得物有所值,根本也没打算重点当主力推。5.0(即o3改名)才是真正的主力
官网评测,难免自卖自夸,看看就好,客观公正还是要等第三方
更强的世界知识
更低的幻觉率
编程
lmarena
官方图
实际工作场景性能暂不清楚,但是即便编程很强,也不会有多少人用,claude3.7已经很贵了,gpt4.5是3.7输入价格的25倍,输出价格的10倍。
最后很可能的实际场景是,码农继续用3.7为主,3.7实在搞不定的,用3.7thinking。还搞不定的,用4.5,o3mini-high,r1,grok3thinking,这些碰碰运气,但4.5不会成为主流。
例子:https://x.com/cursor_ai/status/1895210110714290302
另外代码因为输出量大,次数多,一段代码可能反复改几十次。对输出速度要求较高,这也是为什么推理模型在码农中不太受待见的原因,4.5虽然不是推理模型,但速度比推理模型还慢很多,API现在输出速度只有10~20tps
Cursor:4.5已上线
但肯定不会在$20会员里给不限量用的,否则亏死
佬友说只能用量
Winsurf:4.5已上线
Cline/Roo Code
用API,编程每次都要传几十k的codebase上去,token消耗量极大,而且是吃饭的家伙,经常是全天在使用,这么贵码农也用不起。证据是下图,OpenRouter的所有用户总token消耗,不看绝对值,看实际用途占比
3.7主要消耗在Cline/Roo Code/酒馆里,
4.5主要消耗在OpenRouter Chatroom里,很少有人真的用在Cline/Roo Code里(哪怕是测试)
当然现在4.5上线时间短,过段时间再观察
数学能力
Lmarena
写作能力
lmarena
官方
情商
据说较高
lmarena评测
livebench评测
Chat版
官网$200Pro用户已上线(网页/ios/安卓/PC)
限量暂不清楚
$20的plus用户要下周上线,可想而知限量会很少
Peo已上线,每天赠送3000积分,一次4.5消耗2535积分
Perplexity已上线,付费会员支持每天10次4.5,免费会员没有
lmarena只有评分,但单选模型免费用的模型里面并没有4.5,估计太贵了试不起
官网API:已上线
测试:https://platform.openai.com/playground/
没有Tier限制
OpenRouter API:已上线
参考:OpenRouter
测试(可联网):Chatroom | OpenRouter
CherryStudio可以用
Azure API:已上线
逆向API
Chat01已上线4.5,逆向来源是$200会员,10积分一次,需是付费用户,包月会员叠加75折优惠码大概$40会员¥0.24/次,$20会员0.37次,$10会员0.61/次。
单买积分折合¥1.46/次
可以用于API
功能
多模态
支持识别图片
不支持读音频,视频,读屏幕
高级语音模式
不支持
推理
4.5聪明,但不是推理模型,直接吐字,没有推理过程,Sam说4.5是最后一代非推理模型
上下文窗口
上下文128k,最大输出16k,与4o完全相同,没有任何提升
参考o3mini是上下文200k,思考最大84k,最终输出最大16k
3.7是上下文200k,思考最大128k,最终输出最大128k(共享)
刚才实测4.5,发现个很大的问题,虽然官方说输出是16kt,但是官方API,OpenRouterAPI,chat逆向,输出实际都只能输出2kt,超出就截断
不知道是初期临时限制,还是以后一直如此,还是有其他参数或提示词能突破限制
实测输入几十k没问题,主要是输出问题
这意味着
无法做复杂的数学步骤
无法写复杂的代码
无法做稍长的翻译或写作
吐字速度
官网Chat:也佬友反应很快,跟4o差不多。也有人反应很慢
官网API:慢,目测有20tps
OpenRouter的API是10tps,非常慢,参考o3mini是90tps。
4.5虽然不是思考模型,但是总输出耗时,比思考模型还长很多
我怀疑是为了让用户充值$200会员,故意打压API速度
训练数据截止时间
4.5的训练数据是2023年10月,参考4o是24年6月,这怎么还倒退了
联网方法
Chat版联网,API本身不能联网
Ⓐ可以CherryStudio+Lavity API联网,每月免费1000次
ⒷCherryStudio+OpenRouter,选模型那里不要点"管理",要点"添加" →
openai/gpt-4.5-preview:online,联网额外收$4/千url,默认5url,可以自己加参数改
ⒸNextChat+WebPilot插件:联网免费,但速度慢
降智问题
还不清楚,以openai以往的尿性,不乐观,先占坑
有佬友反应$200会员4.5无法联网,无法生成图片,无法放在画布,PoW正常,暂无法确定是因为匆忙上线的bug,还是降智
一些个人想法
GPT4.5 vs Grok
全能型大模型(水桶模型)只有gpt,grok,gemini,豆包,4.5与grok3性能相近,Grok性价比可比4.5高太多了
再加上gpt各种降智,近期美国全能型大模型,可能也就grok3最稳定
其他大模型都不是全能型
claude的Chat版没有联网/语音/视觉/画图
r1没有语音/视觉/画图
Perplexity/秘塔搜索好用,但没有语音/视觉,模型也不是自己的
GPT4.5 vs Claude3.7
本来前两天觉得3.7thinking,输出token量和成本翻了两三倍,太贵了
今天和4.5一比,嗯,3.7thinking真香
GPT4.5 vs R1
API价格差了70倍,Chat一个免费不限量,一个要$200会员,抛开价格比性能就是耍流氓
合着这4.5就是帮着r1,一起来打压nvidia股价的吧
GPT4.5 vs Deep research
根据4.5的技术报告,deep research(据说是o3不是o3mini)在多项指标都显著超过了4.5,这个技术报告没有把deep research当做一项功能对待,而是当做一个独立的模型对待。
考虑到现在deep research已经下放到$20会员每月10次,包月逆向价格也低到只有¥2.5一次,很多场景,可能用deep research比4.5更经济效果更好
参考:https://cdn.openai.com/gpt-4-5-system-card.pdf
对Nvidia股价的影响
上次r1上线引起nvidia暴跌6000亿美元,原因是投资者觉得靠算法也可以解决算力问题
这次4.5一出,立即引起了nvidia股价的下跌,开盘135,收盘120,跌掉了两千多亿美元,相当于整个openai的估值
原因我猜可能是投资者觉得4.5价格这么高,性能提升有限,证明靠买显卡堆算力的路子,最终肯定都是用户买单,可能快超出用户的支付能力了,快走不通了
另外佬友提醒同一天,也有nvidia发财报,大盘下跌等其他因素,下跌不一定只是4.5的原因
大模型发展范式的变化
4.5高昂的成本,有限的性能提升,证明力大飞砖砸显卡预训练的路子,已经不太走得通了
以后的发展范式逐渐转到
Ⓐ思维链:Sam也说了,4.5是openai最后一个非思维链模型
ⒷMoE等通过算法优化,开源共建,降低成本,通过各大云服务商分别部署,众星捧月,解决推理算力瓶颈,r1的路线
ⒸAgent
参考
官方新闻:https://openai.com/index/introducing-gpt-4-5/
官方视频:https://www.youtube.com/watch?v=cfRYp0nItZ8
详细技术报告:https://cdn.openai.com/gpt-4-5-system-card.pdf
评测:https://x.com/scaling01/status/1895180769171005464