印象中很久没有编程大模型发布了

上一个有印象的还是codestral,目前我常用的就是deepseek R1 + deepseek V3。

现在专用于code的大模型越来越少了,都去卷通用大模型了么。我记得去年我还很喜欢用deepseek2.0时候的deepseek-coder,但是现在有印象的专用于编码的大模型只有mistral的codestral还在更,还有就是去年的qwen2.5 32B coder,其他的什么wizard都好像没更了,这是啥原因呢?

用佬友的deepseek research项目生成了一个报告。
探究2025年后专用编程大模型发布减少趋势背后的深层原因.zip (21.1 KB)

32 个赞

claude code这算吗

15 个赞

我去看看呢,没怎么了解,claude印象最深的就是3.5和3.7,平时用的也是这两个最多。主要是好奇为啥没有训练一个专精编程的模型,是不是因为很难打过通用模型,以至于不怎么搞了
(看了下,好像claude code是一个编程工具)

最近高强度用cline,每天都在几百万token,所以在想这个市场应该是挺大的,以cursor为例,每天白嫖他的成本,还真不一定低,如果自己有个专门用于编程的小一点的模型,是否可以把成本就控制一点了

15 个赞

都被OpenAI带着去卷推理了 :crying_cat:

15 个赞

是啊,但是推理模型我用来编码的效果感觉还不如非推模型,思考过程长,最后效果还不一定好。但是我现在已经把claude3.5和3.7已经和编程模型划等号了有点,实际上其他的更通用的任务我还是用v3更多,出报告用的gemini2.5pro

12 个赞

是啊,做代码的那种题变强了,但写的不咋好了

claude的编程是真的太强了,cursor如果能训个小的模型,效果达到3.5,我估计他还能有一点前景,像现在这被薅羊毛,感觉很难有未来。但是悖论是,既然大家都用来编程了,那一定是奔着生产力去的,如果卷不过claude,便宜一点可能也不会有多少人用,这样可能连训练成本都收不回来。现在模型真的太卷了,我感觉像之前很火的kimi这些都快死掉了

3 个赞

真的非常期待一个模型能达到Claude的编程水平

不用期待,谷歌的夜语者已经出现在前端代码里了。大概一周内会发布,可能赶在4.9号的gcn大会之前。据测试,这是目前最优秀的代码模型,超过3.7(不是跑分的超过,是大家实际体验的超过)。目前可在竞技场中盲测体验

3 个赞

Claude太贵,gemini 2.5 pro拿编程太容易超了。我现在用gemini 2.0 flash和deepseek v3新版,效果不错,专门的coder模型跟这两个比应该没太大的优势?

1 个赞

这么强的么?

是的,Gemini2.5pro在代码上已经非常接近3.7了。而这个夜语者极有可能是代码特化的模型,明显的超越了3.7.如果Claude不做出应对,我很难想象他们之后的目标群体。(Claude似乎计划推出120美刀一个月,以及200美刀一个月的计划,可能会提供Claudemax5×和Claudemax20​:multiply:)目前无法知道具体含义,可能是cursor中爆料的500k上下文Claude,5​:multiply:可能是额度翻5倍。

1 个赞

没有新强模型,给500k或者加额度,感觉也没有很大的意义啊。这两者就算升级后,还是Gemini更有优势。(如果夜语者编码>3.7,一两百万的上下文+更低的价格。)

1 个赞

500k才有可能在长上下文中与2.5pro较量,否则现在的Claude虽然标榜自己200k上下文,事实上注意力在50k左右,超出就开始逻辑错误频发。用户不可能在自己长上下文时使用它。以及,可能还有一些功能,例如联网,深度研究,agent等等无法在名称上体现的。具体可以等待或许明天早上,或许后天。

太棒了希望能体验到

我记得有很多的,你去livecodebench找找

2 个赞

刚刚有脚本点到这里了

今天研究了一下,如果能顺利运行一个70b的ai,起码得14代i9cpu+5060以上系列才能感觉不那么卡,还得几百内存。

而现在动不动6 7百b以上的模型,那种消耗和配件就不是一般企业能玩得起,烧钱真的可能只是一股烟就没了,还要深研的话,估计比造飞机航母差不到那去了…

而且主要数据的来源和训练,如果没有技术上的突破。我很怀疑到现在这水平可能就真的快到极限了。

这个不是大模型啊:thinking:

进来看看。