livebench
claude-3-7刚刚捂热一个月的SOTA王座

这么强吗 我却只拿来跑了几千次翻译测试
极低的幻觉率,极长的上下文,极高的单次token输出60000+,第一的综合性能
gemini2.5pro 就是现在的llm之王
看起来语言能力提升很大
太强了!
deepseekv3的分是不是不对啊,有佬测了不是有73吗
只有指令遵循相差无几,其他都压着,好强!
73过分了呀,那比r1还高了。
你拿思考模型跑翻译???
思考模型是在以博士生的智商给你的问题做全面的研究然后生成一份详尽的报告,拿来跑翻译是不是有点高射炮打蚊子了
太强了,只能说以后这个榜的第一领先的时间越来越短了
的确,livebench每5分都算是小半代模型的差距。
大善人这么强
这是旧版
数据看看就好,实际体验至少中文这块还是o3mini稳定
所以o3mini排名是最靠前的,其实已经很贴合了。
刚试了一下,不错不错
谷歌大王有的是Gemini Key,主不在乎(bushi
@chunkBurst 这个榜单可以信 grok3不在