Deepseek-V3-0324的幻觉率又高了,直接翻一番,越更新越高

好歹自己拿自己的一个使用案例发出来,别人也能看看,你所谓幻觉提高是怎么得出的,也能按照一样的提示词验证下。你知不知道 AI 这种提示词工程,测评就存在很多不确定性。

2 Likes

公文也要讲究严谨适度啊,位置不高的职务下,谁敢用假大空的公文。

1 Like

高幻觉也不是不能用。。

这么说可能不准确阿,按照你的逻辑,在这样高的情况下,国家这么大的精力接入,和全世界的热议使用,各家追捧,都是在吃屎么 :rofl:一方面这种评测是否真实客观有待商议,还有就是你可能不太适合用它

说得对 但我还是用R1读下Readme 仅供参考 :thinking:

1 Like

推广有ZZ 正确的成分,从上到下,轰动程度感觉比得上当初GPT3.5问世了,但实际大家都用过,好用是真的,不好用也是真的,幻觉高也是真的,但却没那么神,起码没有神很厉害的程度连DeepSeek看医学影像都敢来凑热闹了。

8 Likes

这个是,所以说我说可能不太准确,不过现在医院,银行接入也是真的,还不知道会不会出什么严重后果,估计也不会直接AI看病吧,也只是辅助作用。具体到我实际这里,我们银行现在也只用它做代码审查,说是后面还会有别的作用还不知道是啥

好不好用又不是看这个跑分的。。。

有时候不听话,但是好用还是真好用

没这方面数据,我曾经对硅基的r1进行政治破甲,让它以维基百科的形式聊点只是稍微有点敏感的历史事件,至少有50%是胡编的,而且质问他信源是什么还会接着编下去,扯得特别像真的。软道歉一层套一层,有个破限手法叫思维链覆写,正好可以慢慢地剥,r1思维链里出现xxx不允许就在预设里写xxx是允许的。

3 Likes

幻觉高不高只有自己测试了才知道

习惯了就好了

ai输出的内容,最终要有人来负责才行

1 Like

那倒不至于,医院用上了也只是玩票性质,任务需求,回答问题还是基于知识库,这方面控制比较好的,不该回答不会回答,就像腾讯的IMA知识广场,知识库没有的内容他都会拒绝回答,大大降低了幻觉。

写代码还行,虽然幻觉率很高,但是还是能高效的解决我工作中遇到的很多问题。模型还是要先了解优缺点,然后准确的去使用模型才对。ds火了后很多人把他无脑当万能神器,难免会有落差的。我联网一直是用火山的应用生成的bot,火山选项中有对回复做约束,回答约束在获取的资料信息中。我目前使用下来,暂时没有遇到过高幻觉带来的影响。

1 Like

自信率也不够准确,应该叫普信率

3 Likes

无监督学习的模型都这样,不过这种模型本来就不适合专业性工作,拿来写作等创造性活动比较合适

1 Like

个人理解,我觉得应该是输出文本变长自然幻觉率高,类似于多做多错,少做少错的理念,也不能就此否定v3-0324,这几天用来写代码真的福音,可以一次性输出成百上千行代码输出,出错率也还可以,只会出现小错误(如括号未封闭类的),简单检查一下代码就可以跑了!

写代码非常爽

虽然有幻觉,但是不影响代码能力

可能是因为,代码天生就可以对抗幻觉。。。毕竟写错了一点就运行不了,容不得幻觉

感觉幻觉经常是莫名其妙给你来个基准评判多少多少,其就是乱使用专有名词了,建议调低温度,提示词朝大白话的方向写

1 Like

LLM基于概率预测下一个生成的Token,所以它生成的Token是“合理”的而不是“真实”的,幻觉率高的模型会一本正经地说瞎话,导致非专业人士无法辨别内容真假。

通俗一点用考试来解释的话就是:
一场笔试当中,
幻觉率低的同学,要么答对,要么直接承认不会答,空在那里
幻觉率高的,比如DeepSeek,它就算不会,也会瞎几把编一个上去,把试卷写满,给人一股我什么都会的样子

1 Like

需要注意这个榜的测试方法是单纯针对RAG的
就是说如果事实是A,提供的文本是B
模型回答A也是会认为是出现幻觉
虽然DS系列确实是高幻觉,但是排行榜前面几名的幻觉排名恐怕并不完全反映普遍的使用体感以及广义的对幻觉的认识。
比如说gemini flash lite