Carlxlx
(Carlxlx)
1
之前的旧V3版本,幻觉率: 3.9 %
现在新版本Deepseek-V3-0324,幻觉率:8.0 %
整整翻了一番
现在都快赶上Deepseek-R1了,R1幻觉率:14.3 %
因此目前这两个市面上的最新Deepseek模型都不要拿来进行高精度写作,什么写论文、写材料、写总结,统统别用
而且Deepseek的幻觉增长率实在太多,更新一次直接翻番啊
下面对比一下别人:
Claude |
Anthropic |
Claude-3-5-sonnet |
4.6 % |
Claude-3.7-Sonnet |
4.4 % |
GPT |
OpenAI |
GPT-4o-mini |
1.7 % |
GPT-4o |
1.5 % |
GPT-4.5-Preview |
1.2 % |
o1/o3 |
OpenAI |
o1-mini |
1.4 % |
o1 |
2.4% |
O1-Pro |
2.4 % |
o3-mini-high-reasoning |
0.8 % |
Gemini |
Google |
Gemini-2.0-Flash-Lite |
1.2% |
Gemini-2.0-Flash |
1.3% |
Gemini-2.0-Flash-Thinking |
1.8% |
Gemini-2.0-Pro |
0.8% |
Gemini-2.5-Pro |
1.1% |
发没发现,一个系列基本上幻觉率差不多,我就没见着有更新完幻觉率直接翻番了
本人不懂技术,不明白为啥Deepseek幻觉率高到这个地步,怎么离谱成这样子?他们怎么训练的这个模型?
最后,专业性写作上慎重使用Deepseek全系列,别往坑里跳
引用数据来源:
GitHub - vectara/hallucination-leaderboard: Leaderboard Comparing LLM Performance at Producing Hallucinations when Summarizing Short Documents
48 Likes
kiki
(kiki)
6
我记得ds家都是模型模型监督的吧。。。然后几轮下来估计这里就误差就上来了
6 Likes
kiki
(kiki)
7
睁眼说瞎话。。打个比方,你让他去github总结下东西,他没有联网能力,但是他回复你2个小时总结完成。。。
4 Likes
lbls888
(RICK)
8
DeepSeek个人看法是哗众取宠,第一眼看上去很高大上,而且又聪明,所以感觉,真的赶美超英啊。但用多几次就发现,喝了假酒了吧。都是醉话。如果幻觉不高怎么会整这些假大空的词汇,用来做公文材料感觉还是可以的。。。
14 Likes
a3members
(a3members)
10
写代码比很多非推理模型都要强 而且便宜 哗众取宠就过分了 你不看下ds多少钱 claude多少钱 gpt4.5多少钱
3 Likes
kayala
(kayala)
11
“不懂技术”,你就不要写最后结论啊,把事情客观描写出来就行。
评测这东西,也没百分百。
9 Likes
kayala
(kayala)
14
你自己不用就行,字里行间都透着嘲讽,还引导别人不用,这叫客观?
7 Likes
seamee
(不紧不慢不快不慢)
15
不太懂这个,希望有大佬给解释一下,这是这个测试项目提供的资料
说是用他们自己的大模型提取的 CNN 和 Daily Mail 的新闻,让各个大模型去总结,有添油加醋的成分就扣分,大概是这个意思?
用模型去评判模型,那这个裁判靠谱吗,我不太清楚
2 Likes
Micheal
(Micheal)
16
感觉应该换个名字,比如叫自信率,一本正经地胡说八道 
5 Likes
6512345
(65)
21
r1幻觉太高确实没办法w
…不过佬可能不是r1适用对象