maolon
1
从vectara的这个benchmark来看
o1(2.4%) → o3 (6.8%) new!
差距2.83倍
o3-mini-high (0.8%) → o4-mini (4.6%) new!
差距5.75倍
附上deepseek作为参考值
第 1 列 |
第 2 列 |
模型 |
幻觉率 |
OpenAI o3-mini-high |
0.8% |
OpenAI o1 |
2.4% |
DeepSeek-V2.5 |
2.4% |
DeepSeek-V3 |
3.9% |
OpenAI o4-mini |
4.6% |
OpenAI o3 |
6.8% |
DeepSeek-V3-0324 |
8.0% |
DeepSeek-R1 |
14.3% |
16 Likes
难道说用了r1帮忙训练?像新出的v3 0324比老v3也是幻觉率高了很多,但是说话就更加活泼一点,感觉新的o3和o4-mini也是,说话比之前活泼一些,没那么死板
3 Likes
techtech
(宇宙绵羊)
5
我个人的经验(严肃中文写作):
幻觉>10% 基本不可采信
幻觉 5%-10% 一轮对话场景勉强可用,多轮不可
幻觉3%-5% 日常场景可用,精确场景需要全文逐字校对
幻觉1%-3% 精确场景可用,关键数据仍需要校对
幻觉低于1% 基本不需要校验
15 Likes
maolon
8
这个就很难权衡,因为幻觉其实也算能力的一种,并不是完全的坏事,但是过高的幻觉就还是弊大于利,目前这点做的非常好的只有gemini2.5,在没有特别伤害这种“创意”能力的情况下又拥有相对同等级模型极低的幻觉率 (1.1%)
2 Likes
techtech
(宇宙绵羊)
10
感觉是用了R1的技术路线,或者说,这条高能力但带来高幻觉副作用的技术路线,是业界当前共识。
随着强化学习引入,思维能力提升,目前各家模型幻觉都高了起来,阿里qwq32b,腾讯hunyuan t1, 百度文心4.5/x1 ,OAI o3 ,智谱z1 ,字节seed-thinking幻觉都很高。
目前唯一能掌握长思维高性能低幻觉技术的就是google。Gemini 2.5 Pro 幻觉低至1%惊为天人。
怪不得谷歌要搞竞业协议,不让外发论文了。
希望别家也能尽快掌握这个天顶星科技
6 Likes
是这样,gemini2.5跟他聊一些日常生活,分享一些东西确实感觉很有温度,但没有deepseek那种过于活泼,真的可以说是恰到好处,挺好的。
幻觉率高也不是坏事,偏文科生,写东西啥的挺有意思的
2.5确实算是全才了,能文能武,Google大善人还是挺有实力的
3 Likes
maolon
12
对,就是从直接模仿人类(指定偏好训练reward model帮助对齐),变成让模型自己去发掘规律,然后因为这里面规则变得宽松,这些模型也开始自由发挥,一方面回复质量看上去是更好了,模型也更智能,另一方面这个幻觉率也就上去了
2 Likes
Biss
(donk666)
14
不过对于推理模型而言,我的要求只有数理能力足够强大就行
3 Likes
用O3的时候能很明显的感觉到幻觉重的问题,4o-latest也是,越更新幻觉越重
1 Like
maolon
16
4o其实还好,用途不同算是个日常对话模型,o3这个就比较要命了
2%的幻觉率对我来说是个分界线,简单概率可理解为50句埋一个雷。这也是我一直以来都很喜欢Gemini的原因,当时第一个支持1M+的上下文,同时幻觉率基本都咬死在1%。真的能少去很多校验的心智负担。
上次问了一个非自己领域相关的专业问题(没开联网),Gemini的回答引用了几篇论文。一搜,居然全是真实存在的,和Gemini说的也能对上,就很赞。
3 Likes
DeepSeek-V3-0324,这个模型我正在使用中,幻觉没有这么高