最新SimpleQA测试出炉:o3-mini几乎垫底,GPT-4.5登顶+突破限制,Gemini 2.0未能卫冕,Grok 3待送测

测试的结果很有意思

SimpleQA的全新评测基准,旨在解决语言模型生成内容中的问题(即模型生成看似合理但实际错误的信息),并通过开源方式推动AI生成内容的可靠性发展。这一基准的发布标志着AI领域在事实性评估方面迈出了重要一步。通俗的说法是,【模型世界知识的能力的测试】

SimpleQA的核心目标包括:

  • 高正确性:每个问题由两名独立AI训练师验证答案,并附上来源链接,确保参考答案的权威性。
  • 挑战性:即使如GPT-4o等前沿模型,在SimpleQA上的正确率也低于40%。
  • 多样性:涵盖历史、科学、技术、艺术、娱乐等领域的4326个问题,避免模型过度专门化。
  • 高效性:问题与答案简短,评估过程快速且结果稳定,适用于大规模测试。

9 个赞

参考V3和R1,两个版本的得分差距。

这个测试结果也基本证实了o1-mini,o3 mini,就是GPT-4o mini的推理版。知识量太低,不是充满幻觉,就是一问三不知。

而不是新模型。

最后个人非常期待grok 3和Claude 3.7 sonnet的表现,理论上不会低于gemini 2.0 pro

1 个赞

这个早就有了

应该是4o-mini的推理版吧?

是的,手抖了。

怎么感觉实际体验中R1的幻觉比V3还要重呢

这个测试是你给他假消息,让他来判断是否是事实。

R1虽然幻觉强,但是在指出提问者的幻觉(事实性评估)应该比V3更强。

属于是一个对于常识性问题的检测榜单?

怪不得速度这么快

是的。专门用来测试模式的模型的基座能力。比如o3 mini 一度号称最强模型,大部分测试项目都击败了o1。但是本质是基座模型就是4o-mini这种8B-30B这种范围等级的小模型。

以上模型除了gpt4.5全部深度使用过 主要用于科研任务 个人感觉ds r1是这里面幻觉最严重的

2 个赞

是的。你说的没错。

这里面参数里不大,价格倒挺贵

也不知道是是不是我主观感受,我觉得r1思考有深度,但输出质量没深度了,而且幻觉怎么越来越严重。

进来看看

不是?4o??

考參數量?看誰知識廣

呃,,,这个测试,不会是OpenAI为了推广GPT-4.5找来的吧 :bili_040:
话说我日常是使用的幻觉问题,可以通过联网来修正啊,对我来说代码能力和逻辑能力以及性价比才是我看重的,所以我还是不可能选择GPT-4.5的 :sneezing_face:

测试项目,好像是是4o时代的。

是这样的,r1幻觉非常严重,不知道能不能用prompt规避一下,老是会给自己带入莫名其妙的背景