折腾几天测试用大模型写代码,烧了百来刀得出一些结论

测试了好几天,基于 OpenRouter 的 API 烧了百来刀,也付费了 Cursor
附上测试需求和人工编辑过的 todo 文件,这个todo文件基础是 Claude 生成的。
需求初始需求分析使用 Grok,后续经过基于 Claude 的多轮交互优化。
原始需求是写个 cli 程序,后来扩展成库的形式。
多次使用之后发现需求用英文表述能提升 Claude 的遵循度。
(这也是烧 100 刀的原因,这东西从 0 起步生成过很多次了)
需求是 Claude 翻译的,可以试试变回中文,总觉得变得模糊不清了。

todo.md (8.4 KB)
design_note.md (56.4 KB)

测试模型:

  • DeepSeek (火山云)

  • QwQ (阿里)

  • DouBao (火山云)

  • Claude (OpenRouter)

  • Grok3 (AICNN)

  • Gemini (OpenRouter)

结论:

  • 除了 Claude 其他模型都不会完整实现任何一个文件,即便是着重提示。

  • 偷懒这一点上 google 家最为离谱,只实现了函数头。

  • DeepSeek 不管是 R1 还是 V3 总是倾向于让我自己写代码,代码中间夹杂着大量的省略。且指令依从性并不好,修改过程极为抽象,只能注入提示词强行禁用 diff 修改。

  • 即便是 Claude 在调用 Agent 编码的过程中必然也是会忘记之前写的东西

  • 忘记之前写的东西的明确特征是 diff 的输出不再可靠,无法正常修改文件。

  • 而忘记的非明确特征是在实现的代码中会忘记已经实现的基础逻辑,导致实现的代码即便看起来能用的但实际上并不正确。

  • 即便是分步流程,给出一个巨长无比的需求文件让列出个 todo 文件,除了 Claude 都给不出有价值能作为编码指引的 todo

  • 至于 todo 文件能否作为记忆这件事,还是结合 todo 让模型重新读一遍比较好

  • 然而即便是 Claude,也不会按照指令一个个文件扫描过去。而是看了部分头文件就觉得自己会了。

  • 一份巨长无比的需求文件让模型总结能测出模型的知识量,至少是某个领域的知识量,知识量不足的模型即便是多次提醒,生成出来的 todo 不会还是不会。

  • 然而你单独问模型某个技术方向的东西又能答得上来,就有点像是考试很牛逼让干活就不行了,不会分析任务的感觉。

  • 分析任务最牛逼的是 Grok3, 结构化和思考深度都非常不错,然而写代码不行,输出的代码缺斤少两。

  • Google 我需要一个更靠谱的调用模式,实际看代码输出,我怀疑 google 是实现我现在需求最合适的模型,至少不会过度编码。

  • Claude 十分喜欢把注意力放在某个小区域,然后忘记了整体,然后代码就会开始有冗余的毛病了。

106 个赞

有啥建议吗?

没建议,Claude 只适合 5000 行以内的需求,我在寻找更合适的使用方式,然而太贵了。

1 个赞

看得出来佬用心了,结论很有用!

有的时候,我是干函数头 :bili_040:让AI逐个实现

Claude 3.7 虽然创造力更强,但是感觉也更不听话了。

前段时间用它写个小脚本,控制台看结果没问题就让它写入文件,结果 3.7 洋洋洒洒一大堆,自作主张替我清洗了数据。
3.5 就听话很多,让它写文件就老老实实写文件。

1 个赞

claude 感觉有时候确实自作主张,感觉一身反骨 :rofl:

1 个赞

然而我这个案例的复杂需求不用 3.7 thinking 连基础都搭不好,这就很让人郁闷,或许该结合着用,利用 3.7 的架构能力编码底层,然后利用 3.5 的依从性给我编码实现

3.7确实自作主张,有时候写个小东西都要生成一个readme

测试的很细致。 grok总体来说怎么样?

1 个赞

看输出很牛逼,实际写代码不太行。适合做规划的感觉,不知道是不是编码语料缺失。

说的很好,深有感触。放手让AI干基本是不理想的,还是需要一个有驾照的驾驶员

距离所谓的AI自我升级还有无限远

太复杂的项目确实难搞,最痛的点就是对话过程中会忘记很多关键信息

忘记还算能忍,计算 token 量然后开新的对话就好,但是让他读源码读实现再开始干活他不干这不能忍!实现都不读生成的东西真就是纯概率了。

果然还得是 Claude

只能问一些问题来改,不能完全交给它改

拆分功能,让AI做小块任务。出错的概率低很多

那如果是提问代码问题呢 是不是也推荐claude

作者用心了,很好的总结