李开复老师的零一万物发了一个 Yi-Coder 9B 模型,23.4% 的 LiveBench 解决率力压 DeepSeek Code 33B
关键是在跨文件代码理解和 Repo 级别的代码问答和代码生成上表现出色
感觉后续
@cursor_ai
里面可以上更小更强的模型了
李开复老师的零一万物发了一个 Yi-Coder 9B 模型,23.4% 的 LiveBench 解决率力压 DeepSeek Code 33B
关键是在跨文件代码理解和 Repo 级别的代码问答和代码生成上表现出色
感觉后续
@cursor_ai
里面可以上更小更强的模型了
能不能白嫖才是真
零一万物可是刷榜大户……难以相信其实力如何。
Yi-Large被他们刷爆了榜,给老外看傻了,觉得特牛逼,实用一下被吓晕……(Reddit上看到的)
和 DSV1 比的…
标题说清楚吧,是开源版本的老deepseek,新的版本deepseek是236B的。
不说清楚容易给人家招黑。
Yi-Large确实比较拉,他们牛逼点的是Yi-Large-Preview,我自己实测下来这两者能力差很多。
刷榜是指lmsys?这个榜要能刷,国内别的厂商早就刷爆了,虽然说这榜现在确实是个笑话了,不过笑话的点还是在于人类本身,做盲选的时候总是选择输出更快更美观的那个。
可以看看别的benchmark榜单,特别是新出来的,那些都是评测者自己的问题然后自己打分的,没法刷榜。
至于这个新的代码模型,可以看aider的榜单,专门评测写代码的。9B大概这个水平:
感觉还是比较拉跨啊。
Yi的都提不起兴趣.
deepseek 在这个代码榜表现怎么样
刷榜单高手,实测一下不太行
这玩意能行吗。。
url分享一下,为什么我搜google的进去是个要钱的网站
李开复的模型最早不是被爆出用开源LLAMA改的,后面被抓现行了吗?
这个标题确实不太客观,虽然参数量级可以说相近,但是毕竟两个模型时间上都快相差一年了。建议是 实测一下,show case
这个事情,感觉没必要再提了,没啥意思