比deepseek更加强的代码模型来了

李开复老师的零一万物发了一个 Yi-Coder 9B 模型,23.4% 的 LiveBench 解决率力压 DeepSeek Code 33B :fire::exploding_head::exploding_head:

关键是在跨文件代码理解和 Repo 级别的代码问答和代码生成上表现出色:zap:

感觉后续
@cursor_ai
里面可以上更小更强的模型了:thinking:

9 Likes

能不能白嫖才是真

1 Like

零一万物可是刷榜大户……难以相信其实力如何。

Yi-Large被他们刷爆了榜,给老外看傻了,觉得特牛逼,实用一下被吓晕……(Reddit上看到的)

5 Likes

和 DSV1 比的…

1 Like

标题说清楚吧,是开源版本的老deepseek,新的版本deepseek是236B的。
不说清楚容易给人家招黑。

2 Likes

Yi-Large确实比较拉,他们牛逼点的是Yi-Large-Preview,我自己实测下来这两者能力差很多。

刷榜是指lmsys?这个榜要能刷,国内别的厂商早就刷爆了,虽然说这榜现在确实是个笑话了,不过笑话的点还是在于人类本身,做盲选的时候总是选择输出更快更美观的那个。
可以看看别的benchmark榜单,特别是新出来的,那些都是评测者自己的问题然后自己打分的,没法刷榜。
至于这个新的代码模型,可以看aider的榜单,专门评测写代码的。9B大概这个水平:

感觉还是比较拉跨啊。

Yi的都提不起兴趣. :nerd_face:

deepseek 在这个代码榜表现怎么样

top

他这个就是用aider这个库去完成任务的情况,第一个百分比是完成的成功率(代码能力),第二列是格式正确率(指令遵循能力)

1 Like

刷榜单高手,实测一下不太行

这玩意能行吗。。

1 Like

url分享一下,为什么我搜google的进去是个要钱的网站

1 Like
1 Like

李开复的模型最早不是被爆出用开源LLAMA改的,后面被抓现行了吗?

1 Like

这个标题确实不太客观,虽然参数量级可以说相近,但是毕竟两个模型时间上都快相差一年了。建议是 实测一下,show case

这个事情,感觉没必要再提了,没啥意思