第一次没答对,但是非常接近,都是6000+,
第二次告诉他:“错误的”
直接反思打出了正确答案
从佬友的帖子看,现在深度思考可能已经是最新的 R1-preview
佬友原题可以发一下吗?
问题2, 只有o1能打出来
这种计算量大的,其实gpt4o能用代码解释器完成。
那就没意思了,就是故意要考验纯token preditction在复杂数值计算的准确性
因为能不能答这个问题不重要, 有没有能力理解和保持数值和逻辑约束比较重要
嗯,同意,这些题目拿来测试不错。实际使用的时候考虑一下成本和自己的要求,代码解释器也是不错的选择。
非常随缘,一次没对
哇,挺好的
deepseek r1今天已经可以一次性答对了!感觉很不错。
确实强,试了下第一个问题倒是还是答不出来
确实,今天更新了R1-preview之后,直接0-shot正确,牛逼啊
剛剛試了試,確實很猛
R1自我升级……