从早上7点用到现在,
一样的两个demo后端项目,
一个是类似newapi的聚合转发轮训池,另一个是定期扫描脚本。
用下来发现还是 Claude 3.7 thinking 更胜多筹
无论是响应速度还是最后代码修改的次数。
o4-mini-high有2个特别坏的毛病:
1、 喜欢事情干一半就task completed,说用户你自己手动干嘛干嘛就搞好了。事实上压根没法手动配有些东西。
2、响应很慢,比起claude 3,.7ct, 都是开了流式,o4mini high动不动超过10s才吐第一个字。
而且我做了一个很特别的测试,
对于第一个demo,
有个问题是当用户测试用例故意少了某个参数,导致服务502,
我说明了问题现象和解决思路后,
o4-mini-high去编辑代码了,然后压根没解决问题。
claude 3.7 thinking 想了一下,思维链里发现我的解决思路压根没用,解决不了真正导致502的问题,于是自己思考找到了更好的解决办法,
编辑代码,成功修复。
————
总结,
closeai,垃圾,
claude,牛逼。