DeepSeek V3 代码能力评测：在 Aider 编辑任务中超越 Claude 3.5

xico · 2024 年12 月 27 日 04:35

DeepSeek V3 与主流模型性能对比

数据来源:
LiveBench 评测: livebench.ai
Aider 代码编辑能力评测: aider.chat/docs/leaderboards

LiveBench 综合测试

Aider 代码编辑测试

模型	Global Average	Reasoning	Coding	Mathematics	Data Analysis	Language	IF Average
o1-2024-12-17-high	75.67	91.58	69.68	80.32	65.47	65.39	81.55
o1-preview-2024-09-12	65.79	67.42	50.85	65.49	67.69	68.72	74.60
gemini-exp-1206	64.09	57.00	63.41	72.36	63.16	51.29	77.34
gemini-2.0-flash-thinking-exp-1219	61.83	64.58	53.13	69.03	68.11	36.83	79.32
deepseek-v3	60.45	56.75	61.77	60.54	60.94	47.48	75.25
gemini-2.0-flash-exp	59.26	59.08	54.36	60.39	61.67	38.22	81.86
claude-3-5-sonnet-20241022	59.03	56.67	67.13	52.28	55.03	53.76	69.30
claude-3-5-sonnet-20240620	58.74	57.17	60.85	54.32	58.87	53.21	68.01
o1-mini-2024-09-12	57.76	72.33	48.05	61.99	57.92	40.89	65.40
gemini-exp-1121	57.36	49.92	49.75	63.75	60.29	40.30	80.15
gpt-4o-2024-08-06	55.33	53.92	51.44	49.54	60.91	47.59	68.58

模型	完成正确率	正确格式使用率	Command Edit format
o1-2024-12-17 (high)	61.7%	91.5%	aider --model openrouter/openai/o1 diff
DeepSeek Chat V3 Preview	48.4%	98.7%	aider --model deepseek/deepseek-chat diff
claude-3-5-sonnet-20241022	45.3%	100.0%	aider --model claude-3-5-sonnet-20241022 diff
gemini-exp-1206	38.2%	98.2%	aider --model gemini/gemini-exp-1206 whole
o1-mini-2024-09-12	32.9%	96.9%	aider --model o1-mini whole
claude-3-5-haiku-20241022	28.0%	91.1%	aider --model claude-3-5-haiku-20241022 diff
gemini-2.0-flash-exp	22.2%	100.0%	aider --model gemini/gemini-2.0-flash-exp whole
DeepSeek Chat V2.5	17.8%	92.9%	aider --model deepseek/deepseek-chat diff
gpt-4o-2024-11-20	15.1%	96.0%	aider --model gpt-4o-2024-11-20 diff
yi-lightning	12.9%	92.9%	aider --model openai/yi-lightning whole
Qwen2.5-Coder-32B-Instruct	8.0%	71.6%	aider --model openai/Qwen/Qwen2.5-Coder-32B-Instruct diff
gpt-4o-mini-2024-07-18	3.6%	100.0%	aider --model gpt-4o-mini-2024-07-18 whole

注意：表格中使用颜色标注突出显示了两个重点对比模型：

Apaa · 2024 年12 月 27 日 05:23

那么把它用在cursor里似乎可行？

handsome · 2024 年12 月 27 日 05:30

deepseek太强了！

a3members · 2024 年12 月 27 日 06:20

数学测试了很多题目还不如qwen2.5-72b

a3members · 2024 年12 月 27 日 06:22

实际使用还是比不过claude 1022

1231 · 2024 年12 月 27 日 08:30

都这么厉害的吗

baodiZzz · 2024 年12 月 27 日 08:38

deepseek v3真滴好强

system · 2025 年1 月 26 日 08:38

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。

话题		回复	浏览量
目前写代码哪个模型最强？资源荟萃人工智能	52	2891	2025 年1 月 19 日
deepseek v3包括r1 到底在写代码时怎么样？开发调优人工智能	32	998	2025 年1 月 26 日
请问deepseek写代码的能力与Claude3.5相比如何？搞七捻三人工智能	14	618	2025 年2 月 7 日
huggingface 打榜为什么Claude 3.5 Sonnet 这么落后开发调优快问快答	32	703	2025 年1 月 15 日
Deepseek，o3mini，和克劳德3.5，对于写代码来说哪一个好呢搞七捻三 ChatGPT , 人工智能 , 快问快答 , 软件开发	48	1530	2025 年2 月 8 日