Deepseek-V3-0324的幻觉率又高了,直接翻一番,越更新越高

之前的旧V3版本,幻觉率: 3.9 %

现在新版本Deepseek-V3-0324,幻觉率:8.0 %

整整翻了一番tieba_033

现在都快赶上Deepseek-R1了,R1幻觉率:14.3 %

因此目前这两个市面上的最新Deepseek模型都不要拿来进行高精度写作,什么写论文、写材料、写总结,统统别用

而且Deepseek的幻觉增长率实在太多,更新一次直接翻番啊

下面对比一下别人:

Claude Anthropic
Claude-3-5-sonnet 4.6 %
Claude-3.7-Sonnet 4.4 %
GPT OpenAI
GPT-4o-mini 1.7 %
GPT-4o 1.5 %
GPT-4.5-Preview 1.2 %
o1/o3 OpenAI
o1-mini 1.4 %
o1 2.4%
O1-Pro 2.4 %
o3-mini-high-reasoning 0.8 %
Gemini Google
Gemini-2.0-Flash-Lite 1.2%
Gemini-2.0-Flash 1.3%
Gemini-2.0-Flash-Thinking 1.8%
Gemini-2.0-Pro 0.8%
Gemini-2.5-Pro 1.1%

发没发现,一个系列基本上幻觉率差不多,我就没见着有更新完幻觉率直接翻番了

本人不懂技术,不明白为啥Deepseek幻觉率高到这个地步,怎么离谱成这样子?他们怎么训练的这个模型?

最后,专业性写作上慎重使用Deepseek全系列,别往坑里跳

引用数据来源:

GitHub - vectara/hallucination-leaderboard: Leaderboard Comparing LLM Performance at Producing Hallucinations when Summarizing Short Documents

48 Likes

上下文很长的话 除了gemini2.5都很差

15 Likes

Gemini居然倒退了?!

3 Likes

等r2再看了 r1的幻觉也不小

4 Likes

不懂,这个幻觉率会影响什么

2 Likes

我记得ds家都是模型模型监督的吧。。。然后几轮下来估计这里就误差就上来了

6 Likes

睁眼说瞎话。。打个比方,你让他去github总结下东西,他没有联网能力,但是他回复你2个小时总结完成。。。

4 Likes

DeepSeek个人看法是哗众取宠,第一眼看上去很高大上,而且又聪明,所以感觉,真的赶美超英啊。但用多几次就发现,喝了假酒了吧。都是醉话。如果幻觉不高怎么会整这些假大空的词汇,用来做公文材料感觉还是可以的。。。

14 Likes

:rofl:码农表示coder还行,没试过写作。。。

1 Like

写代码比很多非推理模型都要强 而且便宜 哗众取宠就过分了 你不看下ds多少钱 claude多少钱 gpt4.5多少钱

3 Likes

“不懂技术”,你就不要写最后结论啊,把事情客观描写出来就行。
评测这东西,也没百分百。

9 Likes

会不会,是你用错地方了?

2 Likes

你自己不用就行,字里行间都透着嘲讽,还引导别人不用,这叫客观?

7 Likes

不太懂这个,希望有大佬给解释一下,这是这个测试项目提供的资料

说是用他们自己的大模型提取的 CNN 和 Daily Mail 的新闻,让各个大模型去总结,有添油加醋的成分就扣分,大概是这个意思?
用模型去评判模型,那这个裁判靠谱吗,我不太清楚

2 Likes

感觉应该换个名字,比如叫自信率,一本正经地胡说八道 :innocent:

5 Likes

会不会是ds公文学习比较多 :sweat_smile:

你的事实在哪里?一个例子都没有

r1幻觉太高确实没办法w
…不过佬可能不是r1适用对象

很显然是用了一些 r1 生产的数据参与训练的

r1资金和人力不够 没办法做很好的数据对齐问题