见微知著,以一道游戏题目测评deepseek-r1与御三家模型,顺便科普些模型调整知识

看了佬的帖子,一下就明白了

不错,参数部分的解释学到了

可以再找点复杂问问,看看 deepseek 和 claude o1 哪家强

模型 表现概述 结果 备注
Gemini 2.0 Flash 直接给出正确解法,清晰展示概率计算逻辑。 直接通过 中文支持良好,排版简洁,未提及二项分布但逻辑完整。
DeepSeek-R1 明确问题为二项分布,分步计算两次不暴击的互补概率。 高效通过 中文适配优秀,强调数学框架,6秒响应速度较快。
Claude 3.5 (Sonnet/Opus) 首次中文回答错误(误加概率),英文提问仍错,补充说明后修正为互补概率法。 反复修正后通过 中文语境下需精确提示,独立概率叠加逻辑易出错。
GPT-4o (AICN) 初次回答误用概率加法,经数学提示词引导后改用互补概率法。 需引导通过 基础数学能力不稳定,依赖提示工程。
O1(社区测评) 暂无完整测试记录,需进一步验证。 待验证 用户反馈存在版本差异(如o1 pro可能优化数学能力)。

多谢科普,一直不太清楚这几个参数怎么用

1 Like

参数解释写的非常好,支持一下

1 Like

对参数部分的解释非常通俗易懂!学习了 :heart_eyes:

1 Like

感谢大佬,很有收获

这个是文档共建功能?直接可以采纳放到原文档里吗?

可以的,佬

1 Like


o1的回答 Thought about 暴击概率计算 for 12 seconds

1 Like

这个有直接替换功能吗

1 Like

我看上面那个o1也是12秒左右,估计思考时间短也不一定是降智版本

谢谢大佬的解析

学习了,例子很清晰 :clap:

太长,直接看结论 :joy:

非也,我从上到下看完了。还推荐朋友阅读。感谢分享,通俗易懂

1 Like

mark一下

2 Likes

感谢科普,很清晰

你这不会出题啊,看我随手编一个现实题目。 :tieba_003:

某次抽奖活动中,能够连中 10 次的人会获得超级大奖。每次抽奖中奖率为 0.45 + 0.00005 \times n。请问在 1000 次以内中大奖概率为多少?

答案:约为 0.169。轻松难倒 o1

参考:linuxdo 传奇 神魔 :tieba_003:

1 Like