同意。
所以,我看到标题进来,但还是继续用claude 3.5s
也可以试试DEEP
用几天试试
感觉还好
实际用下来远不如Claude,差一个档次,指的是写复杂的时候,Claude理解的很好,deepseek写的就很简单
那证明测试差距还不小
是的,看起来排名很高,但实际使用下来就不是那么回事,不知道是有没有对测试进行专门的优化
可能测试问题被刷过了
LMSYS Chatbot Arena (基于 Elo 的聊天机器人排行榜)
一周后再来看吧
1 个赞
嗯嗯 好,
需要顶级的工程能力,想法很简单,但是实现很难,错一点就可能损失几百万
所以。。。能靠怼算力怼规模提升的话,没人愿意搞这些费力不讨好的事
也就是这个中国企业,买不到算力。。。所以专心搞技术,而不是继续扩大规模
1 个赞
也能买吧
新闻不说
一堆企业都卖不出去算力
能买到的,卖不出去的,都是垃圾算力。。。
大模型训练用的算力买不到
64k是硬伤。
那很多企业起步亏死
不过,deepseek没亏钱,他靠技术把成本降下来了,api一直是赚钱的
而且,价格低,用的人多,拿到的数据也更多
lm娱乐榜
还好吧,
grok 能排那么高,实际上不太能用
GORK2还行