使用Deepseek-R1写作时要慎重——幻觉率太高

lueluelue · 2025 年3 月 6 日 19:58

对啊现在ai好像都不怎么测试大海捞针了？

maolon · 2025 年3 月 6 日 20:06

因为光测大海捞针的意义不大了，基本每个模型都能到90%以上的准确率，这是加强版的大海捞针，就是测他们在超长文本情况下理解剧情的能力

lueluelue · 2025 年3 月 6 日 20:07

原来如此！！感谢！！

lueluelue · 2025 年3 月 6 日 20:08

有人说openai的o1大海捞针不如4o，就很好奇有没有测试结果了哈哈哈

maolon · 2025 年3 月 6 日 20:09

如果就这个测试来看确实o1不如4o latest，你看我的表格就知道了

lueluelue · 2025 年3 月 6 日 20:13

是诶为什么会这样，而且我感觉openai刻意限制了思考模型面对长文本的思考时间，按说文本这么长思考时间应该很长啊然后准确率更高

fasefwfeasfw · 2025 年3 月 6 日 20:13

什么叫甚至不如4o，4o是最强的，你应该说r1甚至是排名最差的才符合数据

maolon · 2025 年3 月 6 日 20:16

4o在0-400 tokens以内的时候都没能全对，怎么也称不上好，亮点是准确度衰减的很慢而已

pandamao · 2025 年3 月 6 日 22:18

的确，前几天还说过这事儿。在稍微严肃的场景deepseek-R1的写作是完全不能用的。就是你提示让他不要该原来的意思他都会继续胡编乱造，gpt和gemini甚至是qwen都好很多很多

YU_TAKASAKI · 2025 年3 月 6 日 22:56

想知道ds幻觉有多严重，问他如何赚钱就知道了。瞎说一大堆，可信可行度几乎为0

XzxxXvren123 · 2025 年3 月 6 日 23:37

DS在这方面的对齐确实做得很烂（）

stevessr · 2025 年3 月 6 日 23:44

DS做了对齐吗

XzxxXvren123 · 2025 年3 月 6 日 23:45

还真是

Biss · 2025 年3 月 7 日 00:00

这么看4.5非常擅长这方面啊

op09090 · 2025 年3 月 7 日 00:02

什么样的土开什么样的花。

Biss · 2025 年3 月 7 日 00:03

这么看o1除了极限长度表现一般，其他长度上的表现都是非常好的水平

zzgreg · 2025 年3 月 7 日 00:06

那么我们应该拿r1来做什么？

vector · 2025 年3 月 7 日 00:08

翻译，应该没问题

lizongrui · 2025 年3 月 7 日 00:12

最近写大论文让r1给我润色的时候直接给我胡编乱造了

YU_TAKASAKI · 2025 年3 月 7 日 00:14

长文不行，丢信息概率非常高，当作百度问一些日常问题是没压力的。

话题		回复	浏览量
Deepseek-V3-0324的幻觉率又高了，直接翻一番，越更新越高开发调优人工智能	67	2531	2025 年4 月 2 日
DeepSeek，也许不是最好，但一定有细节打动你开发调优纯水	19	394	2025 年3 月 22 日
最新SimpleQA测试出炉：o3-mini几乎垫底，GPT-4.5登顶+突破限制，Gemini 2.0未能卫冕，Grok 3待送测前沿快讯	24	1062	2025 年3 月 26 日
今年好像好多学校的论文都要查AIGC率，想研究一下这个玩意儿搞七捻三人工智能 , 快问快答	138	3071	2025 年4 月 11 日
大模型综合性能天梯定位表，个人主观看法（已更新o4mini、Gemini-2.5-Flash、o3、Grok-3-mini、GPT-4.1、御三家经典模型、Gemma、商汤、混元、豆包）文档共建人工智能	130	4557	2025 年4 月 18 日