对啊现在ai好像都不怎么测试大海捞针了?
因为光测大海捞针的意义不大了,基本每个模型都能到90%以上的准确率,这是加强版的大海捞针,就是测他们在超长文本情况下理解剧情的能力
原来如此!!感谢!!
1 个赞
有人说openai的o1大海捞针不如4o,就很好奇有没有测试结果了哈哈哈
如果就这个测试来看确实o1不如4o latest,你看我的表格就知道了
是诶为什么会这样,而且我感觉openai刻意限制了思考模型面对长文本的思考时间,按说文本这么长思考时间应该很长啊然后准确率更高
1 个赞
什么叫甚至不如4o,4o是最强的,你应该说r1甚至是排名最差的才符合数据
1 个赞
4o在0-400 tokens以内的时候都没能全对,怎么也称不上好,亮点是准确度衰减的很慢而已
2 个赞
的确,前几天还说过这事儿。在稍微严肃的场景deepseek-R1的写作是完全不能用的。就是你提示让他不要该原来的意思他都会继续胡编乱造,gpt和gemini甚至是qwen都好很多很多
1 个赞
想知道ds幻觉有多严重,问他如何赚钱就知道了。瞎说一大堆,可信可行度几乎为0
2 个赞
DS在这方面的对齐确实做得很烂()
1 个赞
DS做了对齐吗
还真是
这么看4.5非常擅长这方面啊
什么样的土开什么样的花。
1 个赞
这么看o1除了极限长度表现一般,其他长度上的表现都是非常好的水平
1 个赞
那么我们应该拿r1来做什么?
翻译,应该没问题
最近写大论文让r1给我润色的时候直接给我胡编乱造了
长文不行,丢信息概率非常高,当作百度问一些日常问题是没压力的。