LINUX DO
GPQA Diamond,AIME 2024成绩均出炉:增加GPT-4.1、Grok-3-Mini(High)成绩
开发调优
人工智能
PSP
April 15, 2025, 12:04pm
2
顺便吐槽更新后Livebench,似乎有点水了,将在下一版中减小权重)。
5 Likes
show post in topic
Related topics
Topic
Replies
Views
Activity
(正在更新)让现代的模型参加去年的阿里巴巴数学竞赛,能否超越姜萍?
搞七捻三
人工智能
,
纯水
6
386
June 7, 2025
1年时间的AI+Reasoning,高考数学从不及格到几乎满分
搞七捻三
人工智能
1
206
June 14, 2025
[持续更新]livebench0425+aider综合榜单(DeepSeek R1 0528)
文档共建
人工智能
9
642
May 27, 2025
241121 三花AI日报:OpenAI 的 GPT-4o 模型重夺竞技场榜首;DeepSeek 推出全新推理模型 R1-Lite 预览版;谷歌推出专为教育研究微调的 AI 模型
前沿快讯
人工智能
9
828
November 21, 2024
Hunyuan-trubos竟然比gpt4.1和gemini2.5flash还强!
搞七捻三
人工智能
2
360
June 8, 2025