OpenAI 新推理模型幻觉率和错误率激增,行业难题待解

OpenAI最新推理模型o3和o4-mini在编码、数学任务中表现提升,但幻觉率显著高于前代。内部测试显示,o3在人物知识基准中33%回答虚构,o4-mini达48%。第三方测试指出o3编造代码执行细节,用户反馈其生成链接无效。OpenAI称模型因“输出更多主张”导致准确与错误并存,原因未明。

行业转向推理模型以降低训练成本,但推理能力与幻觉的正相关性成新挑战。结合网络搜索或提升准确性(如GPT-4o搜索版准确率90%),但需权衡隐私风险。

TechCrunch

3 Likes

有没有幻觉率100%的模型,想试试(

1 Like

翻车了,尤其是o3这种大模型还搞成这样

1 Like

Qwen 2.5 0.5B,幻觉率99%可以试试。

好像是这个名字,问一个错错一个,0.5B太小了

6 Likes


嗯…?!

5 Likes

你问问它三英战吕布,所有8B以下的模型,答案很有趣(无论是Qwen,还是Gemma)

3 Likes


还真是(

2 Likes

逐级往上推理
1.5B>7B>14B>32B

类似的问题,幻觉率会逐渐降低

2 Likes

佬,现在推理模型幻觉最低的是谁啊?Gemini2.5pro?我记得r1好像是14%吧?

1 Like

关闭联网

GPT-4.5是幻觉率最低模型,我测试特摄、动漫问题的正确率,超越了所有模型(冷门知识)

第二名是Gemini 2.5-Pro

GPT-4.5真的是有点东西的!(夸张的价格)


顺便往o3的脸上唾一口唾沫,不联网的情况下,这个答案简直是辣鸡

5 Likes

用提示词模拟一下答非所问? :face_with_monocle:

还真有。。。

1 Like

我也忘记是哪里测试的0.5B了,以前无意中测试过一次(理论上,0.5B的模型,可以给1.5G-RAM的传音非洲黑蜀黍的手机本地部署的),看了一下硅基最差的也是1.5B(都没0.5B这个型号)

1 Like

不要啊 :tieba_087:黑蜀黍已经够抽象的了 :tieba_087:

这模型好离谱(

10 Likes

我记得APPLE所谓的苹果AI(安全本地IOS内置的),本地模型似乎是3-5B规模?不联网也和0.5B,1.5B相比好不到哪里去。(股价也跌了,当时还有人炒苹果AI)

1 Like

幻觉率可以说是99K(99.9999%) :+1:

www确实

试试看同一个问题在Qwen 0.5B,1.5B,7B,14B,32B的回答对比

我这里没有0.5B :rofl:

六百六十六,笑疯了