deepseek在代码实际工程方面早已遥遥领先Claude,Gemini等模型?


刷推刷到了这个,我不会代码,有会代码用过新/旧deepseek模型的佬出来说法一下,是真的吗?


原推特链接:https://x.com/tetrachino/status/1927873937930866790

6 Likes

ds上下文好短。应该效果不会很好吧

1 Like

其实还好啦,大家有效上下文召回率差不多。ds的上下文原先是128k(官方认为64-128k应用场景少,只给到64k,第三方有支持128k的),这个新的r1好像是支持到164k。但是看fiction上长上下文召回率,感觉其实差不多。

工程代码最好的是Claude,其次是Gemini2.5pro和o3,deepseek真不强

9 Likes

这几个专有名词都有点看不懂,不太明白含金量,等大佬先品鉴 :saluting_face:

2 Likes

我不知道,我是刷推看见的,底下还有牙医的评论,我才有点怀疑这句话的真假(原来是完全不信的),毕竟如果实际工程强的话为啥一直没人提呢。那看起来是这个佬说错了?

巧了,有请下一位 现身说法

1 Like

那看起来是那个推特胡说了。 :saluting_face:

感觉 他的叙述纯是想当然的口胡
没有实际的运用过
譬如字眼 “我发现. . .” 针对的是主帖的测试内容进行展开

而没有提着自己的实际使用感受来进行模型的能力标定
没什么说服力看看就好,甚至还不如上面的排行榜
不过这两人也是拿着别人的测试结果在讲述罢了
重点还得是以原本的测试结果为基准来讨论

再一个就是我细看了之后发现这个测试项目的模型来源是统一GCP里不是官方渠道
说服力再下一级

如果真的强,
cursor,augmentcode,windsurf很快就会用钱投票的 :laughing:
你想想ds可是开源模型,低成本啊,用它岂不美哉狠狠地赚:money_bag:

13 Likes

非常主观的结论,建议自己测试一下

1 Like

我用R1 0528 来跑 roo code ,感觉效果离 gemini cluade 还是有差距的 :tieba_087:

1 Like

写单一的前端界面还不错,但是上工程了就频频出错 :tieba_087:

综合个人使用感觉claude最强,R1第二。

也是,我是看底下有我经常看的博主牙医的回复,才觉得是不是他说的有点正确的可能。才来问一下

uniapp x,这个够冷门了吧,gemini deepseek都不好用,这两web开发本来就不行,这下更不行,只有claude能用,昨天deepseek最新版用着也累。

1 Like

拿力扣较难以上的算法来,ds 80%通过,claude 95%通过,这还不明显嘛

我怀疑他没用过 claude 4 。不过在各个编程领域中每个模型的表现都会不同。没用最好只有适用。

幻覺ds什麼時候低於claude? 問他trpc這種比較新的庫就會開始唬爛而不是像claude一樣告訴你他不會

这个人的幻觉比ai可严重多了

3 Likes