省流
发布o3和o3-mini,大幅提升推理能力和速度。但目前暂不开放,只能申请进行“安全测试”
要点总结
- OpenAI将新的模型命名为o3,跳过o2以防止和Telica O2重名
- o3在推理能力提升非常大,具体体现为在各种类型的benchmark中表现优异,包括:算法(Codeforces)、常识和科学知识(GPQA Diamond)、数学(AIME2024)、即时推理学习(ARC)
- 上述benchmark的结果可以查看purr佬的帖子
- o3-mini支持选择以不同的"efforts"进行思考,即花费不同长短的时间来解决问题,你可以让o3-mini为你思考更长时间以便接近o3的水平
- low efforts模式下的o3-mini速度和4o差不多,medium和o1差不多
- 危险意图识别:新模型能更好地规避危险的问题,此前的各种混淆提问方式几乎难以奏效
- 大概率无多模态:虽然直播中没有明确提及,但如果有多模态能力一定会提到,所以目前应该只支持文本
- 开放时间:目前不开放,要等到大概明年一月底。从现在起可以在官网申请以“安全测试”为目的的访问权限
- 现场演示:直播过程中演示了一个比较复杂的任务,要求o3模型开发一个支持调用o3-mini API的WebUI,要能够根据用户的请求调用API生成代码并启动一个终端执行。这个小项目不算简单,o3在大约1min的时间内完成并一次通过。
个人评价
更强的基础模型才是大家一直以来对OpenAI的期待嘛。
从直播演示上来看,这次确实做到了全方位的跨越,要能力有能力,要响应速度有速度。
但是唯一也是致命的问题:不开放,不给用!
这让人不禁起疑:究竟是真的模型太强了导致可能存在“安全风险”,还是目前算力不足,抑或是实际根本没调好不敢发布?
让我们拭目以待!