折腾几天测试用大模型写代码，烧了百来刀得出一些结论

mhycy · 2025 年3 月 11 日 06:44

测试了好几天，基于 OpenRouter 的 API 烧了百来刀，也付费了 Cursor
附上测试需求和人工编辑过的 todo 文件，这个todo文件基础是 Claude 生成的。
需求初始需求分析使用 Grok，后续经过基于 Claude 的多轮交互优化。
原始需求是写个 cli 程序，后来扩展成库的形式。
多次使用之后发现需求用英文表述能提升 Claude 的遵循度。
（这也是烧 100 刀的原因，这东西从 0 起步生成过很多次了）
需求是 Claude 翻译的，可以试试变回中文，总觉得变得模糊不清了。

todo.md (8.4 KB)
design_note.md (56.4 KB)

测试模型：

DeepSeek (火山云)
QwQ (阿里)
DouBao (火山云)
Claude (OpenRouter)
Grok3 (AICNN)
Gemini (OpenRouter)

结论:

除了 Claude 其他模型都不会完整实现任何一个文件，即便是着重提示。
偷懒这一点上 google 家最为离谱，只实现了函数头。
DeepSeek 不管是 R1 还是 V3 总是倾向于让我自己写代码，代码中间夹杂着大量的省略。且指令依从性并不好，修改过程极为抽象，只能注入提示词强行禁用 diff 修改。
即便是 Claude 在调用 Agent 编码的过程中必然也是会忘记之前写的东西
忘记之前写的东西的明确特征是 diff 的输出不再可靠，无法正常修改文件。
而忘记的非明确特征是在实现的代码中会忘记已经实现的基础逻辑，导致实现的代码即便看起来能用的但实际上并不正确。
即便是分步流程，给出一个巨长无比的需求文件让列出个 todo 文件，除了 Claude 都给不出有价值能作为编码指引的 todo
至于 todo 文件能否作为记忆这件事，还是结合 todo 让模型重新读一遍比较好
然而即便是 Claude，也不会按照指令一个个文件扫描过去。而是看了部分头文件就觉得自己会了。
一份巨长无比的需求文件让模型总结能测出模型的知识量，至少是某个领域的知识量，知识量不足的模型即便是多次提醒，生成出来的 todo 不会还是不会。
然而你单独问模型某个技术方向的东西又能答得上来，就有点像是考试很牛逼让干活就不行了，不会分析任务的感觉。
分析任务最牛逼的是 Grok3, 结构化和思考深度都非常不错，然而写代码不行，输出的代码缺斤少两。
Google 我需要一个更靠谱的调用模式，实际看代码输出，我怀疑 google 是实现我现在需求最合适的模型，至少不会过度编码。
Claude 十分喜欢把注意力放在某个小区域，然后忘记了整体，然后代码就会开始有冗余的毛病了。

a909204013 · 2025 年3 月 11 日 06:45

有啥建议吗？

mhycy · 2025 年3 月 11 日 06:47

没建议，Claude 只适合 5000 行以内的需求，我在寻找更合适的使用方式，然而太贵了。

yuluo · 2025 年3 月 11 日 06:52

看得出来佬用心了，结论很有用！

stevessr · 2025 年3 月 11 日 06:53

有的时候，我是干函数头让AI逐个实现

Aloxaf · 2025 年3 月 11 日 06:55

Claude 3.7 虽然创造力更强，但是感觉也更不听话了。

前段时间用它写个小脚本，控制台看结果没问题就让它写入文件，结果 3.7 洋洋洒洒一大堆，自作主张替我清洗了数据。
3.5 就听话很多，让它写文件就老老实实写文件。

rubyrose · 2025 年3 月 11 日 06:58

claude 感觉有时候确实自作主张，感觉一身反骨

mhycy · 2025 年3 月 11 日 06:58

然而我这个案例的复杂需求不用 3.7 thinking 连基础都搭不好，这就很让人郁闷，或许该结合着用，利用 3.7 的架构能力编码底层，然后利用 3.5 的依从性给我编码实现

SparksDreamer · 2025 年3 月 11 日 07:02

3.7确实自作主张，有时候写个小东西都要生成一个readme

EDWINCHENC · 2025 年3 月 11 日 07:11

测试的很细致。 grok总体来说怎么样？

mhycy · 2025 年3 月 11 日 07:18

看输出很牛逼，实际写代码不太行。适合做规划的感觉，不知道是不是编码语料缺失。

vondoom · 2025 年3 月 11 日 07:23

说的很好，深有感触。放手让AI干基本是不理想的，还是需要一个有驾照的驾驶员

1341723 · 2025 年3 月 11 日 07:28

距离所谓的AI自我升级还有无限远

lxwh · 2025 年3 月 11 日 07:47

太复杂的项目确实难搞，最痛的点就是对话过程中会忘记很多关键信息

mhycy · 2025 年3 月 11 日 07:56

忘记还算能忍，计算 token 量然后开新的对话就好，但是让他读源码读实现再开始干活他不干这不能忍！实现都不读生成的东西真就是纯概率了。

Throttle · 2025 年3 月 11 日 08:00

果然还得是 Claude

include · 2025 年3 月 11 日 09:20

只能问一些问题来改，不能完全交给它改

Allan_hou · 2025 年3 月 11 日 09:24

拆分功能，让AI做小块任务。出错的概率低很多

honkki · 2025 年3 月 11 日 09:28

那如果是提问代码问题呢是不是也推荐claude

Cris_37 · 2025 年3 月 11 日 09:41

作者用心了，很好的总结

话题		回复	浏览量
【实用工具】Thinking Claude - 一个让 Claude 智商直线飙升的神级 Prompt 前沿快讯 Claude , Prompt , 人工智能	42	4805	2025 年1 月 2 日
DeepSeek，也许不是最好，但一定有细节打动你开发调优纯水	19	382	2025 年3 月 22 日
写论文还得Claude，Deepseek我劝你别用资源荟萃 Claude , DeepSeek , 人工智能	49	2604	2025 年3 月 11 日
做了一个开源项目，零成本实现 ChatGPT 的“深度研究”（Deep Research）资源荟萃 ChatGPT , OpenAI , GitHub , 人工智能 , 软件开发	154	3894	2025 年3 月 3 日
【汇总】关于Grok 3、Claude 3.7、GPT-4.5模型，你应该了解什么？搞七捻三人工智能	13	700	2025 年3 月 3 日

折腾几天测试用大模型写代码，烧了百来刀得出一些结论

相关话题