使用Deepseek-R1写作时要慎重——幻觉率太高

直接放主流模型的幻觉数据,来源自HHEM(Vectara公司发布的AI幻觉测试,迄今为止最具权威)

  • OpenAI
    • GPT-4o:1.5%
    • o1-mini:1.4%
    • o1:2.4%
    • o3-mini-high-reasoning:0.8%
  • Google
    • Gemini-2.0-Flash-Exp:1.3%
    • Gemini-2.0-Flash-Thinking-Exp:1.8%
    • Gemini-2.0-Pro-Exp:0.8%
  • Anthropic
    • Claude-3.7-Sonnet:4.4%
  • Deepseek
    • DeepSeek-V3:3.9%
    • DeepSeek-R1: 14.3%

GitHub - vectara/hallucination-leaderboard: Leaderboard Comparing LLM Performance at Producing Hallucinations when Summarizing Short Documents

14.3% 啊各位,什么概念?都是人家gemini十几倍了,别人都5%以下,超过两位数的就他一个是还没淘汰的,剩下的都已经快进博物馆了

Deepseek-R1的幻觉实在高的离谱,已经到了独一无二的地步了。如此高的幻觉率,必然导致他会胡编乱造,信口开河的给你编东西,眼都不带眨的

我周围已经有人吃过这个亏了,用Deepseek-R1去问论文的细节问题,结果他真的给你现场编,编完流程编数据,就差给你现场创作一篇SCI了

如果你对AI输出的真实性要求非常高,比如论文相关内容,一定要慎重使用它,用的时候要仔细检查,或者同一个问题反反复复多问几遍,总之就是小心他的高幻觉

如果你看到这害怕了,不敢用了,想换成Deepseek-V3也是可以的。我实际测试下来,V3相当于GPT-4o的升级版,如果对模型性能要求不高的话,V3已经足够日常使用了

事实上Deepseek-R1已经在很多地方造成不良影响了,比如这篇知乎文章就提到了相关问题
https://zhuanlan.zhihu.com/p/28284660804

总之,我就提醒到这。希望能对各位有所帮助。如果有类似情况也可以发发评论,让大家伙见识见识

92 个赞

谢谢分享

7 个赞

之前用的时候 我也感觉出来了

7 个赞

我们老板吃过R1的亏,就是被硬编,其实其他模型使用下来也有同样的情况,如果什么都不懂,不如百度。。。

5 个赞

非常同意。
r1 胡编乱造的的问题我是在使用中发现的,有些数据我了然于胸,它尽然搞出好几个不知来源的。当然,也要承认 r1 的思考方向还是很不错的。
至于为什么会幻觉,估计是与训练 CoT 的机制有关吧。

7 个赞

感谢分享

2 个赞

幻觉确实高

4 个赞

deepseek在某些方面省的钱确实会在另外的方面还回去了,OpenAI虽然坏,但是基底模型还是有认真做对齐的

7 个赞

是不是因为官网把温度调太高了,用API的话把温度调成0会这样吗

1 个赞

如果ai是你的同事,那么他就是一个任劳任怨,不知疲倦,善于收集整理资料,同时又特别自信爱吹牛的实习生,你既需要引导他,也需要检查他的工作,他犯的错需要你来背锅。

15 个赞

前段时间写论文发现了 :sweat_smile:他给我扩写了一堆原文里没有的

4 个赞

这个也挺高啊:rofl:

1 个赞

用火山的联网api会好点吗

1 个赞

生成内容方面还是GPT强点,起码让他干什么他就干什么

2 个赞

调温度行不

1 个赞

可惜官网不让调温度

1 个赞

同感 指令遵循貌似还需要调教 我让他给我把一段内容转成md 不要在聊天页面渲染 最后一半给渲染了

2 个赞

怎么o1比4o和o1mini还高

1 个赞

其实你还漏了一组数据:deepseek在长context下的表现出乎意料的差,在极限长度下表现甚至不如gpt4o

10 个赞

没用,我用火山的API,在cherrystudio里把温度调整成0,让他帮我翻译文献,给我整一堆不存在的数据和内容,我真是要被气死了

2 个赞