测试了好几天,基于 OpenRouter 的 API 烧了百来刀,也付费了 Cursor
附上测试需求和人工编辑过的 todo 文件,这个todo文件基础是 Claude 生成的。
需求初始需求分析使用 Grok,后续经过基于 Claude 的多轮交互优化。
原始需求是写个 cli 程序,后来扩展成库的形式。
多次使用之后发现需求用英文表述能提升 Claude 的遵循度。
(这也是烧 100 刀的原因,这东西从 0 起步生成过很多次了)
需求是 Claude 翻译的,可以试试变回中文,总觉得变得模糊不清了。
todo.md (8.4 KB)
design_note.md (56.4 KB)
测试模型:
-
DeepSeek (火山云)
-
QwQ (阿里)
-
DouBao (火山云)
-
Claude (OpenRouter)
-
Grok3 (AICNN)
-
Gemini (OpenRouter)
结论:
-
除了 Claude 其他模型都不会完整实现任何一个文件,即便是着重提示。
-
偷懒这一点上 google 家最为离谱,只实现了函数头。
-
DeepSeek 不管是 R1 还是 V3 总是倾向于让我自己写代码,代码中间夹杂着大量的省略。且指令依从性并不好,修改过程极为抽象,只能注入提示词强行禁用 diff 修改。
-
即便是 Claude 在调用 Agent 编码的过程中必然也是会忘记之前写的东西
-
忘记之前写的东西的明确特征是 diff 的输出不再可靠,无法正常修改文件。
-
而忘记的非明确特征是在实现的代码中会忘记已经实现的基础逻辑,导致实现的代码即便看起来能用的但实际上并不正确。
-
即便是分步流程,给出一个巨长无比的需求文件让列出个 todo 文件,除了 Claude 都给不出有价值能作为编码指引的 todo
-
至于 todo 文件能否作为记忆这件事,还是结合 todo 让模型重新读一遍比较好
-
然而即便是 Claude,也不会按照指令一个个文件扫描过去。而是看了部分头文件就觉得自己会了。
-
一份巨长无比的需求文件让模型总结能测出模型的知识量,至少是某个领域的知识量,知识量不足的模型即便是多次提醒,生成出来的 todo 不会还是不会。
-
然而你单独问模型某个技术方向的东西又能答得上来,就有点像是考试很牛逼让干活就不行了,不会分析任务的感觉。
-
分析任务最牛逼的是 Grok3, 结构化和思考深度都非常不错,然而写代码不行,输出的代码缺斤少两。
-
Google 我需要一个更靠谱的调用模式,实际看代码输出,我怀疑 google 是实现我现在需求最合适的模型,至少不会过度编码。
-
Claude 十分喜欢把注意力放在某个小区域,然后忘记了整体,然后代码就会开始有冗余的毛病了。