deepseek-v3确实超过了claude-3-5-sonnet-20241022

同意。
所以,我看到标题进来,但还是继续用claude 3.5s

也可以试试DEEP

用几天试试

感觉还好

实际用下来远不如Claude,差一个档次,指的是写复杂的时候,Claude理解的很好,deepseek写的就很简单

那证明测试差距还不小

是的,看起来排名很高,但实际使用下来就不是那么回事,不知道是有没有对测试进行专门的优化

可能测试问题被刷过了

LMSYS Chatbot Arena (基于 Elo 的聊天机器人排行榜)

一周后再来看吧

1 个赞

嗯嗯 好,

需要顶级的工程能力,想法很简单,但是实现很难,错一点就可能损失几百万

所以。。。能靠怼算力怼规模提升的话,没人愿意搞这些费力不讨好的事

也就是这个中国企业,买不到算力。。。所以专心搞技术,而不是继续扩大规模

1 个赞

也能买吧
新闻不说
一堆企业都卖不出去算力

能买到的,卖不出去的,都是垃圾算力。。。

大模型训练用的算力买不到

64k是硬伤。

那很多企业起步亏死

不过,deepseek没亏钱,他靠技术把成本降下来了,api一直是赚钱的

而且,价格低,用的人多,拿到的数据也更多

lm娱乐榜

还好吧,

grok 能排那么高,实际上不太能用

GORK2还行