o3 是 OpenAI 最强大的推理模型,它在编码、数学、科学、视觉感知等领域号称处于前沿,在包括 Codeforces、SWE-bench 和 MMMU 在内的基准测试中实现了新的 SOTA。
OpenAI 称,o3 非常适合需要多方面分析和答案可能不明显的高级查询。它在分析图像、图表和图形等视觉任务上表现尤为出色。在外部专家的评估中,o3 在困难、现实世界的任务上比 OpenAI o1 少犯 20% 的重大错误 —— 特别是在编程、商业 / 咨询和创意构思等领域表现出色。
早期测试者强调了其作为思维伙伴的分析严谨性,并强调了其生成和批判性地评估新颖假设的能力 —— 特别是在生物学、数学和工程背景下。
OpenAI o4-mini 是一个针对快速、成本效益推理进行优化的较小模型 —— 它在其大小和成本方面取得了“令人瞩目的性能”,尤其是在数学、编码和视觉任务上。在 AIME 2025 上,当提供 Python 解释器时,o4-mini 得分 99.5%。在专家评估中,它还在非 STEM 任务以及数据科学等领域相比前辈 o3-mini 表现更出色。得益于其效率,o4-mini 支持比 o3 高得多的使用限制,使其成为推理受益问题的强大高容量、高吞吐量选项。
与 OpenAI 的前几代推理模型相比,这两个模型也支持更加自然的对话,尤其是在它们参考记忆和过去的对话来使响应更加个性化和相关时。 OpenAI 最强推理模型、能够“思考”图片,o3 和 o4-mini 正式发布 - IT之家