使用Deepseek-R1写作时要慎重——幻觉率太高

Carlxlx · 2025 年3 月 6 日 14:54

直接放主流模型的幻觉数据，来源自HHEM（Vectara公司发布的AI幻觉测试，迄今为止最具权威）

OpenAI
- GPT-4o：1.5%
- o1-mini：1.4%
- o1：2.4%
- o3-mini-high-reasoning：0.8%
Google
- Gemini-2.0-Flash-Exp：1.3%
- Gemini-2.0-Flash-Thinking-Exp：1.8%
- Gemini-2.0-Pro-Exp：0.8%
Anthropic
- Claude-3.7-Sonnet：4.4%
Deepseek
- DeepSeek-V3：3.9%
- DeepSeek-R1： 14.3%

GitHub - vectara/hallucination-leaderboard: Leaderboard Comparing LLM Performance at Producing Hallucinations when Summarizing Short Documents

14.3% 啊各位，什么概念？都是人家gemini十几倍了，别人都5%以下，超过两位数的就他一个是还没淘汰的，剩下的都已经快进博物馆了

Deepseek-R1的幻觉实在高的离谱，已经到了独一无二的地步了。如此高的幻觉率，必然导致他会胡编乱造，信口开河的给你编东西，眼都不带眨的

我周围已经有人吃过这个亏了，用Deepseek-R1去问论文的细节问题，结果他真的给你现场编，编完流程编数据，就差给你现场创作一篇SCI了

如果你对AI输出的真实性要求非常高，比如论文相关内容，一定要慎重使用它，用的时候要仔细检查，或者同一个问题反反复复多问几遍，总之就是小心他的高幻觉

如果你看到这害怕了，不敢用了，想换成Deepseek-V3也是可以的。我实际测试下来，V3相当于GPT-4o的升级版，如果对模型性能要求不高的话，V3已经足够日常使用了

事实上Deepseek-R1已经在很多地方造成不良影响了，比如这篇知乎文章就提到了相关问题
https://zhuanlan.zhihu.com/p/28284660804

总之，我就提醒到这。希望能对各位有所帮助。如果有类似情况也可以发发评论，让大家伙见识见识

grepbug · 2025 年3 月 6 日 14:56

谢谢分享

HSn · 2025 年3 月 6 日 14:57

之前用的时候我也感觉出来了

tounh · 2025 年3 月 6 日 14:57

我们老板吃过R1的亏，就是被硬编，其实其他模型使用下来也有同样的情况，如果什么都不懂，不如百度。。。

slashkkk · 2025 年3 月 6 日 16:29

非常同意。
r1 胡编乱造的的问题我是在使用中发现的，有些数据我了然于胸，它尽然搞出好几个不知来源的。当然，也要承认 r1 的思考方向还是很不错的。
至于为什么会幻觉，估计是与训练 CoT 的机制有关吧。

wud1000 · 2025 年3 月 6 日 16:34

感谢分享

lueluelue · 2025 年3 月 6 日 16:36

幻觉确实高

23375 · 2025 年3 月 6 日 16:41

deepseek在某些方面省的钱确实会在另外的方面还回去了，OpenAI虽然坏，但是基底模型还是有认真做对齐的

wiwuwiwu · 2025 年3 月 6 日 16:42

是不是因为官网把温度调太高了，用API的话把温度调成0会这样吗

Creasys · 2025 年3 月 6 日 16:47

如果ai是你的同事，那么他就是一个任劳任怨，不知疲倦，善于收集整理资料，同时又特别自信爱吹牛的实习生，你既需要引导他，也需要检查他的工作，他犯的错需要你来背锅。

CupSouls · 2025 年3 月 6 日 17:28

前段时间写论文发现了他给我扩写了一堆原文里没有的

dercheang · 2025 年3 月 6 日 17:30

这个也挺高啊

xiaojuwa · 2025 年3 月 6 日 17:31

用火山的联网api会好点吗

GaoYu · 2025 年3 月 6 日 17:33

生成内容方面还是GPT强点，起码让他干什么他就干什么

kk_156 · 2025 年3 月 6 日 17:45

调温度行不

Laxdal · 2025 年3 月 6 日 17:47

可惜官网不让调温度

Fii · 2025 年3 月 6 日 18:06

同感指令遵循貌似还需要调教我让他给我把一段内容转成md 不要在聊天页面渲染最后一半给渲染了

3.141592653 · 2025 年3 月 6 日 18:29

怎么o1比4o和o1mini还高

maolon · 2025 年3 月 6 日 19:03

其实你还漏了一组数据：deepseek在长context下的表现出乎意料的差，在极限长度下表现甚至不如gpt4o

woliubei · 2025 年3 月 6 日 19:23

没用，我用火山的API，在cherrystudio里把温度调整成0，让他帮我翻译文献，给我整一堆不存在的数据和内容，我真是要被气死了

话题		回复	浏览量
Deepseek-V3-0324的幻觉率又高了，直接翻一番，越更新越高开发调优人工智能	67	2474	2025 年4 月 2 日
DeepSeek，也许不是最好，但一定有细节打动你开发调优纯水	19	392	2025 年3 月 22 日
大模型综合性能天梯定位表，个人主观看法（已更新Gemini-2.5-Pro-Exp-0325，GPT-4o-0328）文档共建人工智能	105	3351	2025 年3 月 28 日
最新SimpleQA测试出炉：o3-mini几乎垫底，GPT-4.5登顶+突破限制，Gemini 2.0未能卫冕，Grok 3待送测前沿快讯	24	1057	2025 年3 月 26 日
今年好像好多学校的论文都要查AIGC率，想研究一下这个玩意儿搞七捻三人工智能 , 快问快答	138	2962	2025 年4 月 11 日