openai新模型的幻觉率全面退步,与前代模型出现数倍差距

从vectara的这个benchmark来看

o1(2.4%) → o3 (6.8%) new!
差距2.83倍

o3-mini-high (0.8%) → o4-mini (4.6%) new!
差距5.75倍

附上deepseek作为参考值

第 1 列 第 2 列
模型 幻觉率
OpenAI o3-mini-high 0.8%
OpenAI o1 2.4%
DeepSeek-V2.5 2.4%
DeepSeek-V3 3.9%
OpenAI o4-mini 4.6%
OpenAI o3 6.8%
DeepSeek-V3-0324 8.0%
DeepSeek-R1 14.3%
16 Likes

个人使用而言,3%以上要谨慎采纳aigc

2 Likes

提高这么多!?

2 Likes

难道说用了r1帮忙训练?像新出的v3 0324比老v3也是幻觉率高了很多,但是说话就更加活泼一点,感觉新的o3和o4-mini也是,说话比之前活泼一些,没那么死板

3 Likes

我个人的经验(严肃中文写作):
幻觉>10% 基本不可采信
幻觉 5%-10% 一轮对话场景勉强可用,多轮不可
幻觉3%-5% 日常场景可用,精确场景需要全文逐字校对
幻觉1%-3% 精确场景可用,关键数据仍需要校对
幻觉低于1% 基本不需要校验

15 Likes

咋还退步了呢

1 Like

幻觉率退步这个说法感觉怪怪的,应该说上升或恶化吧 :tieba_087:

3 Likes

这个就很难权衡,因为幻觉其实也算能力的一种,并不是完全的坏事,但是过高的幻觉就还是弊大于利,目前这点做的非常好的只有gemini2.5,在没有特别伤害这种“创意”能力的情况下又拥有相对同等级模型极低的幻觉率 (1.1%)

2 Likes

符合大学生现状

感觉是用了R1的技术路线,或者说,这条高能力但带来高幻觉副作用的技术路线,是业界当前共识。
随着强化学习引入,思维能力提升,目前各家模型幻觉都高了起来,阿里qwq32b,腾讯hunyuan t1, 百度文心4.5/x1 ,OAI o3 ,智谱z1 ,字节seed-thinking幻觉都很高。
目前唯一能掌握长思维高性能低幻觉技术的就是google。Gemini 2.5 Pro 幻觉低至1%惊为天人。
怪不得谷歌要搞竞业协议,不让外发论文了。
希望别家也能尽快掌握这个天顶星科技

6 Likes

是这样,gemini2.5跟他聊一些日常生活,分享一些东西确实感觉很有温度,但没有deepseek那种过于活泼,真的可以说是恰到好处,挺好的。
幻觉率高也不是坏事,偏文科生,写东西啥的挺有意思的 :grinning_face:2.5确实算是全才了,能文能武,Google大善人还是挺有实力的

3 Likes

对,就是从直接模仿人类(指定偏好训练reward model帮助对齐),变成让模型自己去发掘规律,然后因为这里面规则变得宽松,这些模型也开始自由发挥,一方面回复质量看上去是更好了,模型也更智能,另一方面这个幻觉率也就上去了

2 Likes

gemini可以说是无敌了

不过对于推理模型而言,我的要求只有数理能力足够强大就行

3 Likes

用O3的时候能很明显的感觉到幻觉重的问题,4o-latest也是,越更新幻觉越重

1 Like

4o其实还好,用途不同算是个日常对话模型,o3这个就比较要命了

2%的幻觉率对我来说是个分界线,简单概率可理解为50句埋一个雷。这也是我一直以来都很喜欢Gemini的原因,当时第一个支持1M+的上下文,同时幻觉率基本都咬死在1%。真的能少去很多校验的心智负担。

上次问了一个非自己领域相关的专业问题(没开联网),Gemini的回答引用了几篇论文。一搜,居然全是真实存在的,和Gemini说的也能对上,就很赞。

3 Likes

gemini是真神

训练方式不同,最后还是靠后期思考去验证

DeepSeek-V3-0324,这个模型我正在使用中,幻觉没有这么高