livebench出分，gemini-2.5登顶T1

3GZ · 2025 年3 月 26 日 15:15

livebench
claude-3-7刚刚捂热一个月的SOTA王座

elfmaid · 2025 年3 月 26 日 15:17

这么强吗我却只拿来跑了几千次翻译测试

QuantumSlice · 2025 年3 月 26 日 15:18

极低的幻觉率，极长的上下文，极高的单次token输出60000+,第一的综合性能
gemini2.5pro 就是现在的llm之王

LanyangyangKing · 2025 年3 月 26 日 15:18

看起来语言能力提升很大

Xcating · 2025 年3 月 26 日 15:24

断崖式领先了

6512345 · 2025 年3 月 26 日 15:24

太强了！

QuantumSlice · 2025 年3 月 26 日 15:24

deepseekv3的分是不是不对啊，有佬测了不是有73吗

flairvi · 2025 年3 月 26 日 15:25

只有指令遵循相差无几，其他都压着，好强！

3GZ · 2025 年3 月 26 日 15:25

73过分了呀，那比r1还高了。

Ghidra · 2025 年3 月 26 日 15:25

你拿思考模型跑翻译？？？
思考模型是在以博士生的智商给你的问题做全面的研究然后生成一份详尽的报告，拿来跑翻译是不是有点高射炮打蚊子了

ati9527 · 2025 年3 月 26 日 15:25

太强了，只能说以后这个榜的第一领先的时间越来越短了

3GZ · 2025 年3 月 26 日 15:26

的确，livebench每5分都算是小半代模型的差距。

crazy · 2025 年3 月 26 日 15:28

大善人这么强

ingram66 · 2025 年3 月 26 日 15:30

这是旧版

huangbaoleng · 2025 年3 月 26 日 15:31

数据看看就好，实际体验至少中文这块还是o3mini稳定

3GZ · 2025 年3 月 26 日 15:32

所以o3mini排名是最靠前的，其实已经很贴合了。

LingBu · 2025 年3 月 26 日 15:33

刚试了一下，不错不错

awz707 · 2025 年3 月 26 日 15:34

谷歌大王有的是Gemini Key，主不在乎（bushi

Sam_Altman · 2025 年3 月 26 日 15:34

@chunkBurst 这个榜单可以信 grok3不在

yeahhe · 2025 年3 月 26 日 15:36

话题		回复	浏览量
gemini-2.5-pro疑似正在推送中前沿快讯人工智能	116	1327	2025 年3 月 26 日
Gemini2.5上线AI Studio! 前沿快讯 Gemini , 人工智能 , 纯水	41	1750	2025 年3 月 28 日
OAI前脚刚推出O1满血版，Gemini Exp 1206就来了前沿快讯 Gemini , 人工智能	54	2404	2024 年12 月 8 日
大模型综合性能天梯定位表，个人主观看法（已更新Gemini-2.5-Pro-Exp-0325，GPT-4o-0328）文档共建人工智能	105	3095	2025 年3 月 28 日
【原创长文】关于Gemini 2.5 Pro，你想知道的一切。250401：2.5pro支持Canvas拉【长期更新】搞七捻三 Gemini , 人工智能 , 纯水	225	6991	2025 年4 月 1 日