deepseek-v3确实超过了claude-3-5-sonnet-20241022

slashkkk · 2024 年12 月 28 日 08:15

同意。
所以，我看到标题进来，但还是继续用claude 3.5s

lezishen · 2024 年12 月 28 日 08:29

也可以试试DEEP

Twilight9 · 2024 年12 月 28 日 08:54

用几天试试

lezishen · 2024 年12 月 28 日 08:58

感觉还好

xigua1 · 2024 年12 月 28 日 09:14

实际用下来远不如Claude，差一个档次，指的是写复杂的时候，Claude理解的很好，deepseek写的就很简单

lezishen · 2024 年12 月 28 日 09:17

那证明测试差距还不小

xigua1 · 2024 年12 月 28 日 09:24

是的，看起来排名很高，但实际使用下来就不是那么回事，不知道是有没有对测试进行专门的优化

lezishen · 2024 年12 月 28 日 09:39

可能测试问题被刷过了

cabudon · 2024 年12 月 29 日 10:13

LMSYS Chatbot Arena (基于 Elo 的聊天机器人排行榜)

一周后再来看吧

lezishen · 2024 年12 月 29 日 10:40

嗯嗯好，

jcc · 2024 年12 月 29 日 11:03

需要顶级的工程能力，想法很简单，但是实现很难，错一点就可能损失几百万

所以。。。能靠怼算力怼规模提升的话，没人愿意搞这些费力不讨好的事

也就是这个中国企业，买不到算力。。。所以专心搞技术，而不是继续扩大规模

lezishen · 2024 年12 月 29 日 11:04

也能买吧
新闻不说
一堆企业都卖不出去算力

jcc · 2024 年12 月 29 日 11:05

能买到的，卖不出去的，都是垃圾算力。。。

大模型训练用的算力买不到

oUjg3 · 2024 年12 月 29 日 11:06

64k是硬伤。

lezishen · 2024 年12 月 29 日 11:06

那很多企业起步亏死

jcc · 2024 年12 月 29 日 11:07

不过，deepseek没亏钱，他靠技术把成本降下来了，api一直是赚钱的

而且，价格低，用的人多，拿到的数据也更多

hang333 · 2024 年12 月 29 日 11:10

lm娱乐榜

lezishen · 2024 年12 月 29 日 11:10

还好吧，

hang333 · 2024 年12 月 29 日 11:11

grok 能排那么高，实际上不太能用

lezishen · 2024 年12 月 29 日 11:11

GORK2还行

话题		回复	浏览量
deepseek-v3 超过 claude-3.5？前沿快讯 ChatGPT , OpenAI , 人工智能	63	2376	2024 年12 月 29 日
claude-3.5-sonnet已经可以完美替代gpt-4o 资源荟萃人工智能	46	1760	2024 年12 月 28 日
685B的Deepseek V3上抱脸了，Aider榜上超sonnet了，LiveBench数据好像也出了搞七捻三人工智能	26	1127	2024 年12 月 26 日
deepseek V3在lmarena的结果出来了，第7名前沿快讯人工智能	26	1022	2024 年12 月 31 日
DeepSeek V3 代码能力评测：在 Aider 编辑任务中超越 Claude 3.5 前沿快讯 DeepSeek , 人工智能	6	586	2024 年12 月 27 日