DeepSeek3-0324 Lmarena评分出来了 250401 02:39更新
综合榜比DeepSeek3提升了52分,在非推理模型中名列前茅。
性能类似r1,期待r2的表现,应该能比r1提升几十分
综合
前端编程
编程
AIder编程评分
非推理模型就与非推理模型比(图里用红线划掉了推理模型),DeepSeek3-0324仅次于3.7非推理版,高于claude3.5,gpt4.5,gemini2.0pro这些非推理模型
因为编程消耗token量巨大,推理模型又慢又贵,编程场景下,大多数都是用非推理模型
DeepSeek的迭代速度,明显高于美国模型,进步很快,仅仅距离v3发布间隔不到3个月,就有了比较大的进步
v3-0324底模性能,与25年Q1这批顶级非推理模型是同一梯队的,如Grok3/GPT4.5/Claude3.7/Genimi2.0pro
但是成本有着巨大优势
r2应该很快了,r1大概是在DeepSeek v3-1226之后20多天上线的
编程比过不3.7,也正常,毕竟claude专门为编程优化,就是靠编程吃饭的,其他openai,gemini,meta,qwen编程也比不过claude。DeepSeek能追到第二已经很好了,慢慢追,不着急
v3-0324的分数,已经接近于推理r1了,可以预见r2出来后,很可能也是推理模型里,分数仅次于3.7-thinking-32k的
我很欣赏DeepSeek低调务实的态度,抓重点的能力
v3-0324自称是"小更新",没有发布会,没有新闻稿,官方X都没发推,甚至官网没有单独的一个页面,没有直播,没有视频,没有“圣诞老人”,没有各种采访(与Sam是两个极端),没有用v4.0,v3.5,甚至v3.1的名字,没有“最贵所以最好”,没有"博士级别”,没有“高情商”,没有“我们即将实现AGI”,没有"地球上最聪明的AI",没有粗口能力做噱头。除了实打实的性能提升,啥tm也没有
链接:Aider LLM Leaderboards | aider
官方发的评测与3.7,4.5对比
链接:Change Log | DeepSeek API Docs
对比DeepSeek-v3-1226,提升明显
MMLU-Pro:75.9 → 81.2(+5.3)
GPQA:59.1 → 68.4(+9.3)
AIME:39.6 → 59.4(+19.8)
LiveCodeBench:39.2 → 49.2(+10.0)
Livebench(佬友测的,非官方)
总分在非推理模型排第一,接近推理的r1
链接:跑了一下 DeepSeek-V3-0324 的 LiveBench 结果
Artificial Analysis的评测
链接:https://artificialanalysis.ai/
Misguided Attention Eval(误导性注意力评估)
Deep research v3 0324在Misguided Attention Eval中的分数大幅提升了
项目地址:GitHub - cpldcpu/MisguidedAttention: A collection of prompts to challenge the reasoning abilities of large language models in presence of misguiding information
Fiction.live长上下文衰减评测 250326 21:20更新
DeepSeek3-0324在32k和60k上,比DeepSeek3-241226,都有很大提升
已经达到非推理模型中的前列水平,仅次于4.5,强于3.7非推理版,2.0pro,2.0flash等
OpenRouter的免费Deepseek v3 0324 API
链接:OpenRouter