见微知著,以一道游戏题目测评deepseek-r1与御三家模型,顺便科普些模型调整知识

o1 pro

https://chat01.ai/en/chat/01JJ4F0RN6KA2QQZKH8HQ1SQ1Q

1 Like

学到了学到了

哈哈,我写的时候都感觉有点阅读难度了,觉得应该没那么多人有兴趣看完 :hugs:

感谢补充

主要目的也不是难倒他们,想看下他们使用上的差距,你这个对o1补充提示应该也可以答对

可以多写一点,还是有佬友爱看的 :yum:

o1 r1都答不对


deepseekV3,一次过

感觉v3的确处理数学问题能力到了一定程度了,比较强大。

跟佬友学习

1 Like

我的第一反应是两件装备,一次攻击选一件装备,就会出现三种结果(20.83,17.19,24.31),对应四种情况。
后面发现你们都说37.32,推理了一下,原来是一次攻击两件装备都参与生效,但是暴击率是独立发生作用,这样计算下来(二项式分布)就是37.32。(对于计算出37.32这个答案中有一个疑问点,那就是为什么一次攻击中一件装备暴击与另一件装备不暴击居然算是暴击,这是为什么?)
对于39.16这个答案那就是完全没考虑 独立 这两个字。
还有一个有意思的点:我用Gemini 2.0 Flash Experimental修改温度为0.1时,独立开窗口问十次答案都是37.32,但是我要是在原来的问题后面加一句(如果是百分之8和百分之12的暴击率呢),问五六次他都会算错(不会按照37.32的思路来推理)。

1 Like


在问题足够清晰时4omini也能答对,感觉o1,r1强就强在能get到你的提问点,让你用起来很舒服,不用每次问ai个问题还要费心思想怎么问他,怕他会理解错。

其实有点像之前奥特曼说的,你不需要管太多细节,简单阐释问题,就能获得很好的效果,prompt会不那么重要

试了一下官网4o一次就答对了


豆包也能答对,不知道灰度到我没有

1 Like

点赞,写的很易懂,mark一下大模型参数讲解

讲得很清楚学到了

1 Like


我的4o也是能过的,应该是佬的gpt降智了

1 Like

试了试的确是这样,很有趣的现象

不断进步,不断发展