使用 o4-mini 编码体验分享

最近上了 VV 的百吨王,并尝试使用 OpenAI 新发布的 o4-mini-high 来编写代码。经过两天的使用,我感觉 o4-mini 在编程上的表现 优于 Claude-3.7,。举两个例子:

:test_tube: 示例一:编码问题排查

我让两个模型协助排查一个编码报错问题:为何在读取 GBK 编码的传参时报错?

  • Claude 的处理:
    Claude 多次回避问题本身,建议我改用 UTF-8,甚至在我明确表示我就是要使用 GBK 的前提下,转而推荐使用 GB18030 替代 GBK。整体表现为规避问题(虽然这也是一种解决问题的策略),建议偏软。
  • o4-mini-high 的处理:
    在我没有开启搜索功能的情况下,gpt 自行调用搜索,找出了报错原因,并提供了几种解决方案。
    我测试方案可以通过,效率与准确性都超过了 Claude。

:magnifying_glass_tilted_left: 相关截图如下:

搜索网页

报错原因

改用gbk18030

修改编码名称

:test_tube: 示例二:实现一个方法并填充 XML

我要求两个模型:

  1. 编写一个处理逻辑的方法;
  2. 编写另一个方法将结果填充进我提供截图的 XML 模板中。
  • Claude 的输出:
    给了我 4 个方法,其中一个是填充 XML 的另外三个是逻辑实现(而我只要求 2 个)。更令人不满的是,它完全忽略了我提供的 XML 模板截图,自创了一套格式,虽然除xml外其他逻辑正确,但整体偏离需求。
  • o4-mini-high 的输出:
    准确按照要求输出了两个方法,虽然xml填充部分的代码略显简陋,但完全遵循指令,最让我意外的是还额外提供了清晰的注释和良好的排版,细节处理上明显更好。

:thinking: Claude 还能独占编程领先位置吗?

我曾认为 Claude 的评分被低估,实际使用体验很强,但现在随着 ds-v3、gemini-2.5-pro、o4-mini 等模型的持续进步,Claude 是否仍是唯一选择,值得重新思考

  • 对于前端方向,Claude 或许仍有一席之地(我写前端较少,不作详细评价);
  • 但在编码指令遵循、调试能力、模板适应性等方面,我认为 o4-mini 表现更优,未来有望成为主力选项之一。

我会继续使用观察 o4-mini-high 的实际表现,看它是否真正具备长期战斗力。以上。

50 Likes

我也想上百吨王 :tieba_087:

34 Likes

claude 3.7 sonnet非思考类模型,速度快一些,整体效率还算可以吧

34 Likes

长推理模型跟混合推理模型对比不了

30 Likes

懂了用4o mini写代码

34 Likes

符合aider评测结果 :zany_face:

26 Likes

o4还是4o啊

27 Likes

进来学习

27 Likes

不是说因为是推理模型所以赢的理所应当,这里主要讨论的还是实际的使用体验;对咱来说,谁好用我们用谁,而不是说“你一推理模型,法拉利和轮椅飙车,赢了也不露脸”的问题

27 Likes

肯定是o4呀,4o完全不是一个赛道的 :joy:

26 Likes

实际体验我觉得gemini 2.5 pro最好 :zany_face:,就是老是说外语

30 Likes

O4-mini的api成本咋样 哪里买api啊

25 Likes

所以我最后说Claude不再是写代码的唯一选择了;gemni2.5pro我之前也用过,不过我嫌他太慢了 :cry:

27 Likes

确实慢,而且老是截断

13 Likes

我第一眼也看成4o了 :joy:奥特曼现在取名太混乱了

5 Likes

而且感觉现在用claude翻译也没有以前那么好了,这一点上gemini我是感觉最能把握信和达的

2 Likes

我现在用的是VV佬的team,api的输入输出价格是1.1和4.4,不算贵;中转站点的话稳妥一点我就推荐牢大的,充值是3:1。直接搜xyv点ai就行(不知道算不算aff)
AFF

确实,奥特曼神人命名:4o → 4.5 → 4.1 → o4

4 Likes

其实o4还算正常,问题是竟然没有o2直接到o3
竟然从4.5升级到4.1

佬,请问是o4-mini还是o4-mini-high,没看懂两个有什么区别