刷推刷到了这个,我不会代码,有会代码用过新/旧deepseek模型的佬出来说法一下,是真的吗?
ds上下文好短。应该效果不会很好吧
其实还好啦,大家有效上下文召回率差不多。ds的上下文原先是128k(官方认为64-128k应用场景少,只给到64k,第三方有支持128k的),这个新的r1好像是支持到164k。但是看fiction上长上下文召回率,感觉其实差不多。
工程代码最好的是Claude,其次是Gemini2.5pro和o3,deepseek真不强
这几个专有名词都有点看不懂,不太明白含金量,等大佬先品鉴
我不知道,我是刷推看见的,底下还有牙医的评论,我才有点怀疑这句话的真假(原来是完全不信的),毕竟如果实际工程强的话为啥一直没人提呢。那看起来是这个佬说错了?
巧了,有请下一位 现身说法
那看起来是那个推特胡说了。
感觉 他的叙述纯是想当然的口胡
没有实际的运用过
譬如字眼 “我发现. . .” 针对的是主帖的测试内容进行展开
而没有提着自己的实际使用感受来进行模型的能力标定
没什么说服力看看就好,甚至还不如上面的排行榜
不过这两人也是拿着别人的测试结果在讲述罢了
重点还得是以原本的测试结果为基准来讨论
再一个就是我细看了之后发现这个测试项目的模型来源是统一GCP里不是官方渠道
说服力再下一级
如果真的强,
cursor,augmentcode,windsurf很快就会用钱投票的
你想想ds可是开源模型,低成本啊,用它岂不美哉狠狠地赚
非常主观的结论,建议自己测试一下
我用R1 0528 来跑 roo code ,感觉效果离 gemini cluade 还是有差距的
写单一的前端界面还不错,但是上工程了就频频出错
综合个人使用感觉claude最强,R1第二。
也是,我是看底下有我经常看的博主牙医的回复,才觉得是不是他说的有点正确的可能。才来问一下
uniapp x,这个够冷门了吧,gemini deepseek都不好用,这两web开发本来就不行,这下更不行,只有claude能用,昨天deepseek最新版用着也累。
拿力扣较难以上的算法来,ds 80%通过,claude 95%通过,这还不明显嘛
我怀疑他没用过 claude 4 。不过在各个编程领域中每个模型的表现都会不同。没用最好只有适用。
幻覺ds什麼時候低於claude? 問他trpc這種比較新的庫就會開始唬爛而不是像claude一樣告訴你他不會
这个人的幻觉比ai可严重多了