最近上了 VV 的百吨王,并尝试使用 OpenAI 新发布的 o4-mini-high 来编写代码。经过两天的使用,我感觉 o4-mini 在编程上的表现 优于 Claude-3.7,。举两个例子:
示例一:编码问题排查
我让两个模型协助排查一个编码报错问题:为何在读取 GBK 编码的传参时报错?
- Claude 的处理:
Claude 多次回避问题本身,建议我改用 UTF-8,甚至在我明确表示我就是要使用 GBK 的前提下,转而推荐使用 GB18030 替代 GBK。整体表现为规避问题(虽然这也是一种解决问题的策略),建议偏软。 - o4-mini-high 的处理:
在我没有开启搜索功能的情况下,gpt 自行调用搜索,找出了报错原因,并提供了几种解决方案。
我测试方案可以通过,效率与准确性都超过了 Claude。
相关截图如下:
示例二:实现一个方法并填充 XML
我要求两个模型:
- 编写一个处理逻辑的方法;
- 编写另一个方法将结果填充进我提供截图的 XML 模板中。
- Claude 的输出:
给了我 4 个方法,其中一个是填充 XML 的另外三个是逻辑实现(而我只要求 2 个)。更令人不满的是,它完全忽略了我提供的 XML 模板截图,自创了一套格式,虽然除xml外其他逻辑正确,但整体偏离需求。 - o4-mini-high 的输出:
准确按照要求输出了两个方法,虽然xml填充部分的代码略显简陋,但完全遵循指令,最让我意外的是还额外提供了清晰的注释和良好的排版,细节处理上明显更好。
Claude 还能独占编程领先位置吗?
我曾认为 Claude 的评分被低估,实际使用体验很强,但现在随着 ds-v3、gemini-2.5-pro、o4-mini 等模型的持续进步,Claude 是否仍是唯一选择,值得重新思考。
- 对于前端方向,Claude 或许仍有一席之地(我写前端较少,不作详细评价);
- 但在编码指令遵循、调试能力、模板适应性等方面,我认为 o4-mini 表现更优,未来有望成为主力选项之一。
我会继续使用观察 o4-mini-high 的实际表现,看它是否真正具备长期战斗力。以上。