RooCode配合o4-mini-high 比较 Claude 3.7 thinking

从早上7点用到现在,
一样的两个demo后端项目,
一个是类似newapi的聚合转发轮训池,另一个是定期扫描脚本。

用下来发现还是 Claude 3.7 thinking 更胜多筹
无论是响应速度还是最后代码修改的次数。

o4-mini-high有2个特别坏的毛病:
1、 喜欢事情干一半就task completed,说用户你自己手动干嘛干嘛就搞好了。事实上压根没法手动配有些东西。
2、响应很慢,比起claude 3,.7ct, 都是开了流式,o4mini high动不动超过10s才吐第一个字。

而且我做了一个很特别的测试,

对于第一个demo,
有个问题是当用户测试用例故意少了某个参数,导致服务502,
我说明了问题现象和解决思路后,

o4-mini-high去编辑代码了,然后压根没解决问题。

claude 3.7 thinking 想了一下,思维链里发现我的解决思路压根没用,解决不了真正导致502的问题,于是自己思考找到了更好的解决办法,
编辑代码,成功修复。

————

总结,
closeai,垃圾,
claude,牛逼。

14 Likes

你说的对

非常同意

论单模型还得claude3.7 gemini2.5
o3 o4-mini强在它们可以各种调工具 但是工具API还没开放

我觉得claude和这类辅助code的工具合作很深,比如cursor什么的,
相性特别好

等openai收购windsurf就可以一战了

aider上测试排第一。这逼榜也不知道收费了没有

1 Like

那玩意我不爱用,基于terminal的太抽象

可以用函数工具,但用起来傻乎乎的,一点灵动性都没,只能说拉中之拉。

还没有深度整合 等搞完了体验才好
cursor可是跟着claude一起走了这么久

你用o3-mini-high就知道了,这是模型缺陷,救治不了,o4-mini-high和o3-mini-high对比感觉就推理和数学能力提高了,编码能力的话还是基本一个水平,专门去做适配压根是浪费时间。。

1 Like