【Deepseek3-0324】250401:Lmarena评测出来了!【长期更新】

DeepSeek3-0324 Lmarena评分出来了 250401 02:39更新

综合榜比DeepSeek3提升了52分,在非推理模型中名列前茅。
性能类似r1,期待r2的表现,应该能比r1提升几十分

综合

前端编程

编程

AIder编程评分

非推理模型就与非推理模型比(图里用红线划掉了推理模型),DeepSeek3-0324仅次于3.7非推理版,高于claude3.5,gpt4.5,gemini2.0pro这些非推理模型

因为编程消耗token量巨大,推理模型又慢又贵,编程场景下,大多数都是用非推理模型

DeepSeek的迭代速度,明显高于美国模型,进步很快,仅仅距离v3发布间隔不到3个月,就有了比较大的进步

v3-0324底模性能,与25年Q1这批顶级非推理模型是同一梯队的,如Grok3/GPT4.5/Claude3.7/Genimi2.0pro
但是成本有着巨大优势

r2应该很快了,r1大概是在DeepSeek v3-1226之后20多天上线的

编程比过不3.7,也正常,毕竟claude专门为编程优化,就是靠编程吃饭的,其他openai,gemini,meta,qwen编程也比不过claude。DeepSeek能追到第二已经很好了,慢慢追,不着急

v3-0324的分数,已经接近于推理r1了,可以预见r2出来后,很可能也是推理模型里,分数仅次于3.7-thinking-32k的

我很欣赏DeepSeek低调务实的态度,抓重点的能力
v3-0324自称是"小更新",没有发布会,没有新闻稿,官方X都没发推,甚至官网没有单独的一个页面,没有直播,没有视频,没有“圣诞老人”,没有各种采访(与Sam是两个极端),没有用v4.0,v3.5,甚至v3.1的名字,没有“最贵所以最好”,没有"博士级别”,没有“高情商”,没有“我们即将实现AGI”,没有"地球上最聪明的AI",没有粗口能力做噱头。除了实打实的性能提升,啥tm也没有

链接:Aider LLM Leaderboards | aider

官方发的评测与3.7,4.5对比

链接:Change Log | DeepSeek API Docs
对比DeepSeek-v3-1226,提升明显
MMLU-Pro:75.9 → 81.2(+5.3)
GPQA:59.1 → 68.4(+9.3)
AIME:39.6 → 59.4(+19.8)
LiveCodeBench:39.2 → 49.2(+10.0)

Livebench(佬友测的,非官方)

总分在非推理模型排第一,接近推理的r1
链接:跑了一下 DeepSeek-V3-0324 的 LiveBench 结果

Artificial Analysis的评测

链接:https://artificialanalysis.ai/

Misguided Attention Eval(误导性注意力评估)

Deep research v3 0324在Misguided Attention Eval中的分数大幅提升了
项目地址:GitHub - cpldcpu/MisguidedAttention: A collection of prompts to challenge the reasoning abilities of large language models in presence of misguiding information

Fiction.live长上下文衰减评测 250326 21:20更新

DeepSeek3-0324在32k和60k上,比DeepSeek3-241226,都有很大提升
已经达到非推理模型中的前列水平,仅次于4.5,强于3.7非推理版,2.0pro,2.0flash等

OpenRouter的免费Deepseek v3 0324 API

链接:OpenRouter

Chutes的免费Deepseek v3 0324 API

链接:https://chutes.ai/

65 Likes

太猛了!

24 Likes

还是很猛的

24 Likes

猛的一批

23 Likes

就今天在cline的使用情况来说 php的话连达到Claude3.5的水平都有点够呛..等下次用aider试试

27 Likes

小作坊下料就是猛

24 Likes

这么猛啊

22 Likes

太强了!这就放进aider!话说。。。aider怎么部分accept?

22 Likes

发现现在默认都是用R1了,已经很少用gpt了,都是deepseek+claude

28 Likes

帅!!!

21 Likes

OpenRouter 上下文是不是有限啊

21 Likes

太猛了。

25 Likes

架不住性价比呀,相比claude的价格,deepseek性价比拉满了

26 Likes

250325更新

3 Likes


坏了 !我问个问题,它爆粗口了。

10 Likes

250325更新

1 Like

哇中国力量

1 Like

一样,openai的早就不开会员了

这是什么评测佬,没听过咋

佬整理的好ദ്ദി˶˃ ᵕ ˂ )✧