LiveBench看看DeepSeek-V3什么水平？全球第四？

mingliao · 2024 年12 月 26 日 07:31

今天看到论坛都在说V3出来了，于是本地跑了轮LiveBench

成绩如下：

model	average	reasoning	coding	math	data_analysis	language	if	company
o1-2024-12-17-high	75.67	91.58	69.69	80.32	65.47	65.39	81.55	OpenAI
o1-preview-2024-09-12	65.79	67.42	50.85	65.49	67.69	68.72	74.60	OpenAI
gemini-exp-1206	64.09	57.00	63.41	72.36	63.16	51.29	77.34	Google
deepseek-v3	61.97	53.3	62.1	61.9	58.6	52.9	83.0	DeepSeek
gemini-2.0-flash-thinking-exp-1219	61.83	64.58	53.13	69.03	68.11	36.83	79.32	Google
gemini-2.0-flash-exp	59.26	59.08	54.36	60.39	61.67	38.22	81.86	Google
claude-3-5-sonnet-20241022	59.03	56.67	67.13	52.28	55.03	53.76	69.30	Anthropic
claude-3-5-sonnet-20240620	58.74	57.17	60.85	54.32	58.87	53.21	68.01	Anthropic
o1-mini-2024-09-12	57.76	72.33	48.05	61.99	57.92	40.89	65.40	OpenAI
gemini-exp-1121	57.36	49.92	49.75	63.75	60.29	40.30	80.15	Google

lezishen · 2024 年12 月 26 日 07:34

等于1121那还可以

mingliao · 2024 年12 月 26 日 07:41

之前数学得分异常是因为main分支的代码有BUG，无法解析AMPS_Hard的得分导致的，我也不知道为什么main分支拉下来解析不了，我手动修复了BUG之后，能够gen_ground_truth_judgment得出正常得分了。

handsome · 2024 年12 月 26 日 07:42

已经很强了！

ProxyCN · 2024 年12 月 26 日 07:42

什么时候coding能上90就好了。

nameliu · 2024 年12 月 26 日 07:43

那看起来不就是追上了，好厉害

mingliao · 2024 年12 月 26 日 09:00

目前已经是第四名了。

wowokun · 2024 年12 月 26 日 09:20

联系一下库克

话题		回复	浏览量
685B的Deepseek V3上抱脸了，Aider榜上超sonnet了，LiveBench数据好像也出了搞七捻三人工智能	26	1116	2024 年12 月 26 日
DeepSeek V3 代码能力评测：在 Aider 编辑任务中超越 Claude 3.5 前沿快讯 DeepSeek , 人工智能	6	557	2024 年12 月 27 日
deepseek V3在lmarena的结果出来了，第7名前沿快讯人工智能	26	1002	2024 年12 月 31 日
DeepSeek在CopilotArena 最适合编程排行榜排名第一！aider排行榜第二！前沿快讯人工智能	29	1299	2024 年12 月 26 日
deepseek-v3确实超过了claude-3-5-sonnet-20241022 搞七捻三树洞	71	1367	2024 年12 月 29 日