o3来了,非常强,但不给用 - OpenAI 12 Days - Day 12

省流

发布o3和o3-mini,大幅提升推理能力和速度。但目前暂不开放,只能申请进行“安全测试”

要点总结

  1. OpenAI将新的模型命名为o3,跳过o2以防止和Telica O2重名
  2. o3在推理能力提升非常大,具体体现为在各种类型的benchmark中表现优异,包括:算法(Codeforces)、常识和科学知识(GPQA Diamond)、数学(AIME2024)、即时推理学习(ARC)
  3. 上述benchmark的结果可以查看purr佬的帖子
  4. o3-mini支持选择以不同的"efforts"进行思考,即花费不同长短的时间来解决问题,你可以让o3-mini为你思考更长时间以便接近o3的水平
  5. low efforts模式下的o3-mini速度和4o差不多,medium和o1差不多
  6. 危险意图识别:新模型能更好地规避危险的问题,此前的各种混淆提问方式几乎难以奏效
  7. 大概率无多模态:虽然直播中没有明确提及,但如果有多模态能力一定会提到,所以目前应该只支持文本
  8. 开放时间:目前不开放,要等到大概明年一月底。从现在起可以在官网申请以“安全测试”为目的的访问权限
  9. 现场演示:直播过程中演示了一个比较复杂的任务,要求o3模型开发一个支持调用o3-mini API的WebUI,要能够根据用户的请求调用API生成代码并启动一个终端执行。这个小项目不算简单,o3在大约1min的时间内完成并一次通过。

个人评价

更强的基础模型才是大家一直以来对OpenAI的期待嘛。
从直播演示上来看,这次确实做到了全方位的跨越,要能力有能力,要响应速度有速度。
但是唯一也是致命的问题:不开放,不给用!
这让人不禁起疑:究竟是真的模型太强了导致可能存在“安全风险”,还是目前算力不足,抑或是实际根本没调好不敢发布?
让我们拭目以待!

9 个赞

前排前排

2 个赞

前排支持。给用也是pro才能用,期待一波gemini

3 个赞

感觉像另一个sora

7 个赞

算力不够用了,等英伟达的好黑架构显卡出来再说

2 个赞

(帖子已被作者删除)

1 个赞

又是画饼,没什么意思

1 个赞

压力来到算力这边,感觉现在英伟达已经实质上垄断了GPU算力 :tieba_087:

1 个赞

Gemini 今晚有活吗

1 个赞

我觉得国内模型追得很快,qwen deepseek

2 个赞

很期待agi o3推出后被一些小学数学问题爆掉的场景

8 个赞

之前试用过千问qwq模型,属于是能个人部署的模型里面很强的

感觉应该不是,这次从命名来看会按照o1和o1-mini的规矩来

不是没有这种可能。
但这次可以申请内测,而且直接说明了明年一月底,我愿意相信不会跳票

正确的。

没有关注,等佬友总结

管他什么模型都没电子烟好抽

6 个赞

o2哭了

1 个赞

看有些说如果调用费用很贵

1 个赞

AI 总结的?是为了避免版权问题吧

1 个赞