最新SimpleQA测试出炉：o3-mini几乎垫底，GPT-4.5登顶+突破限制，Gemini 2.0未能卫冕，Grok 3待送测

PSP · 2025 年2 月 28 日 03:06

测试的结果很有意思

SimpleQA的全新评测基准，旨在解决语言模型生成内容中的问题（即模型生成看似合理但实际错误的信息），并通过开源方式推动AI生成内容的可靠性发展。这一基准的发布标志着AI领域在事实性评估方面迈出了重要一步。通俗的说法是，【模型世界知识的能力的测试】

SimpleQA的核心目标包括：

PSP · 2025 年2 月 28 日 03:10

参考V3和R1，两个版本的得分差距。

这个测试结果也基本证实了o1-mini，o3 mini，就是GPT-4o mini的推理版。知识量太低，不是充满幻觉，就是一问三不知。

而不是新模型。

最后个人非常期待grok 3和Claude 3.7 sonnet的表现，理论上不会低于gemini 2.0 pro

eugeneL · 2025 年2 月 28 日 03:11

这个早就有了

messmerr · 2025 年2 月 28 日 03:12

应该是4o-mini的推理版吧？

PSP · 2025 年2 月 28 日 03:13

是的，手抖了。

Tim88 · 2025 年2 月 28 日 03:15

怎么感觉实际体验中R1的幻觉比V3还要重呢

PSP · 2025 年2 月 28 日 03:17

这个测试是你给他假消息，让他来判断是否是事实。

R1虽然幻觉强，但是在指出提问者的幻觉（事实性评估）应该比V3更强。

Tim88 · 2025 年2 月 28 日 03:19

属于是一个对于常识性问题的检测榜单？

YangguangZhou · 2025 年2 月 28 日 03:20

怪不得速度这么快

PSP · 2025 年2 月 28 日 03:22

是的。专门用来测试模式的模型的基座能力。比如o3 mini 一度号称最强模型，大部分测试项目都击败了o1。但是本质是基座模型就是4o-mini这种8B-30B这种范围等级的小模型。

Cosmosurfer · 2025 年2 月 28 日 03:27

以上模型除了gpt4.5全部深度使用过主要用于科研任务个人感觉ds r1是这里面幻觉最严重的

PSP · 2025 年2 月 28 日 03:28

是的。你说的没错。

Walmt · 2025 年2 月 28 日 03:34

这里面参数里不大，价格倒挺贵

slashkkk · 2025 年2 月 28 日 03:44

也不知道是是不是我主观感受，我觉得r1思考有深度，但输出质量没深度了，而且幻觉怎么越来越严重。

wwow · 2025 年2 月 28 日 03:44

进来看看

handsome · 2025 年2 月 28 日 05:14

不是？4o？？

passerby064857 · 2025 年2 月 28 日 10:42

考參數量?看誰知識廣

awz707 · 2025 年2 月 28 日 10:48

呃，，，这个测试，不会是OpenAI为了推广GPT-4.5找来的吧
话说我日常是使用的幻觉问题，可以通过联网来修正啊，对我来说代码能力和逻辑能力以及性价比才是我看重的，所以我还是不可能选择GPT-4.5的

PSP · 2025 年3 月 1 日 06:25

测试项目，好像是是4o时代的。

PoseidonLi0514 · 2025 年3 月 1 日 06:32

是这样的，r1幻觉非常严重，不知道能不能用prompt规避一下，老是会给自己带入莫名其妙的背景

话题		回复	浏览量
大模型综合性能天梯定位表，个人主观看法（已更新o4mini、Gemini-2.5-Flash、o3、Grok-3-mini、GPT-4.1、御三家经典模型、Gemma、商汤、混元、豆包）文档共建人工智能	130	4552	2025 年4 月 18 日
跑了一下 DeepSeek-V3-0324 的 LiveBench 结果搞七捻三人工智能	18	839	2025 年3 月 26 日
DeepSeek R1 Lite Preview明显被夸大且表现不佳搞七捻三人工智能	13	1390	2025 年1 月 21 日
gemini 2.5 速测显著弱于o3mini high grok 3r 强于R1 搞七捻三人工智能	18	966	2025 年3 月 26 日
混元T1上线了，真的快!逆得也很快！前沿快讯人工智能 , 纯水	53	2448	2025 年3 月 24 日