livebench 最新模型跑分结果已出炉

Arthur63 · 2024 年9 月 25 日 09:53

gemini 1.5 pro 002 综合评分与 gpt 4o（chatgpt 4o latest）持平。数学评分 57，仅次 o1-mini 和 o1-preview，世界第三。
qwen2.5 72b 综合评分接近 llama3.1 405b。代码评分 56，仅次 claude 3.5 sonnet 的 60 分，世界第二。
gemini 1.5 flash 002 综合评分 49，超过 deepseek 2.5 和 gpt 4o mini。

Yuju · 2024 年9 月 25 日 09:56

果然coding还是得看claude

Arthur63 · 2024 年9 月 25 日 10:04

无敌的存在。

Arthur63 · 2024 年9 月 25 日 10:08

handsome · 2024 年9 月 25 日 13:58

qwen2.5这么强

shenbing · 2024 年9 月 25 日 14:03

这个准吗

slot · 2024 年9 月 25 日 14:10

感觉不准，但已经是目前最好的排行榜了

Arthur63 · 2024 年9 月 25 日 14:17

分数是准的，但是保不齐有模型为了冲榜拿开源的问题集训练。

purr · 2024 年9 月 25 日 18:05

目前看如果 claude 能把 thinking prompt 做出来，似乎能直接起飞？

togawa_sakiko · 2024 年9 月 25 日 19:35

claude憋了这么久希望能有个大动作，openai感觉是已经没活了

话题		回复	浏览量
LiveBench的Gemini exp 1114排名结果出了前沿快讯人工智能	20	446	2024 年11 月 17 日
LiveBench看看DeepSeek-V3什么水平？全球第四？搞七捻三人工智能	7	365	2024 年12 月 26 日
Gemini很优秀，但是有点偏科搞七捻三人工智能	16	764	2024 年11 月 23 日
Gemini 2.0，拿下！前沿快讯人工智能 , 纯水	5	856	2024 年12 月 12 日
Gemini-Exp-1114在arena上的分类排名前沿快讯人工智能	12	681	2024 年11 月 16 日