使用Deepseek-R1写作时要慎重——幻觉率太高

对啊现在ai好像都不怎么测试大海捞针了?

因为光测大海捞针的意义不大了,基本每个模型都能到90%以上的准确率,这是加强版的大海捞针,就是测他们在超长文本情况下理解剧情的能力

原来如此!!感谢!!

1 个赞

有人说openai的o1大海捞针不如4o,就很好奇有没有测试结果了哈哈哈

如果就这个测试来看确实o1不如4o latest,你看我的表格就知道了

是诶为什么会这样,而且我感觉openai刻意限制了思考模型面对长文本的思考时间,按说文本这么长思考时间应该很长啊然后准确率更高

1 个赞

什么叫甚至不如4o,4o是最强的,你应该说r1甚至是排名最差的才符合数据

1 个赞

4o在0-400 tokens以内的时候都没能全对,怎么也称不上好,亮点是准确度衰减的很慢而已

2 个赞

的确,前几天还说过这事儿。在稍微严肃的场景deepseek-R1的写作是完全不能用的。就是你提示让他不要该原来的意思他都会继续胡编乱造,gpt和gemini甚至是qwen都好很多很多

1 个赞

想知道ds幻觉有多严重,问他如何赚钱就知道了。瞎说一大堆,可信可行度几乎为0

2 个赞

DS在这方面的对齐确实做得很烂()

1 个赞

DS做了对齐吗 :bili_002:

还真是 :rofl:

这么看4.5非常擅长这方面啊

什么样的土开什么样的花。

1 个赞

这么看o1除了极限长度表现一般,其他长度上的表现都是非常好的水平

1 个赞

那么我们应该拿r1来做什么?

翻译,应该没问题

最近写大论文让r1给我润色的时候直接给我胡编乱造了

长文不行,丢信息概率非常高,当作百度问一些日常问题是没压力的。