见微知著,以一道游戏题目测评deepseek-r1与御三家模型,顺便科普些模型调整知识

上题目:
我有两件互相独立的装备,分别可以增加我百分之9和百分之13的暴击几率,那么,我现在攻击两次,两次攻击至少有一次暴击的概率是多少

对比对象

  • gemini2.0 flash thing experiment
  • claude 3.5 sonnet/opus
  • gpt-4o
  • deepseek-r1
  • o1(评论区佬友测评添加)

gemini:


补充测试,追加问题:如果是百分之8和百分之12的暴击率呢?分开询问是正确的

但是如果一起问,就会出错


甚至在后面用原问题提问,依然绕不回来

通过

deepseek-r1
思考6秒,首先明确了这是一个二项分布问题,这里其他模型都没指出,不知道是不是提示词原因,还是说思维链就是更完整



在排版布局上也更具优势,清晰大方,难道是因为我是中文提问所以有专门优化?

通过

claude (sonnet和opus)

跌跌撞撞通过

gpt-4o aicn未降智版本


第一次失败,尝试调用prompt


调用专门math提示词后成功

4o评论区补充测试官网一遍过

添加评论区老友o1评测:

补充评论区佬友o1pro测评
https://chat01.ai/en/chat/01JJ4F0RN6KA2QQZKH8HQ1SQ1Q

模型 表现概述 结果 备注
Gemini 2.0 Flash 直接给出正确解法,清晰展示概率计算逻辑。 补充测试:若问题改为“我有两件互相独立的装备,分别可以增加我百分之9和百分之13的暴击几率,那么,我现在攻击两次,两次攻击至少有一次暴击的概率是多少,如果是百分之8和百分之12的暴击率呢?“ 那么会出现将暴击理解为“第一次攻击只装备第一件装备,第二次攻击只装备第二件装备”的语意理解不准情况。 直接通过 中文支持良好,排版简洁,未提及二项分布但逻辑完整。 二次测试,发现出现理解偏差,怀疑是原问题更改后导致模型对句子理解出现不准确,后面用原问题进行询问,也会按照原先思维惯性进行错误回答,可能是它的训练语料有过类似问题,匹配的是这种解法。
DeepSeek-R1 明确问题为二项分布,分步计算两次不暴击的互补概率。 高效通过 中文适配优秀,强调数学框架,6秒响应速度较快。
Claude 3.5 (Sonnet/Opus) 首次中文回答错误(误加概率),英文提问仍错,补充说明后修正为互补概率法。 反复修正后通过 中文语境下需精确提示,独立概率叠加逻辑易出错。
GPT-4o (AICN) +gpt40官网 aicn的4o初次回答误用概率加法,经数学提示词引导后改用互补概率法。 官网4o一次性答对,4omini在补充条件完整情况下也能答对 aicn 4o未添加gpts情况下无法通过, 官网4o未添加gpts情况下可一次通过 ainc的4o可能因为内置了提示词与审核的缘故,所以能力有所减弱?只能调用gpts进行补充强化? 官网4o因为只有普通内置提示词所以少了干扰?
O1(社区测评 o1.net与网页o1评测都是12秒左右解答,答案正确但是过程简略 直接通过 用户反馈存在版本差异(如o1 pro可能优化数学能力)。


———————————————————————————————————————分割线

模型微调里的temperatuer,top-p,top-k简单科普

说明:大模型的文本生成原理是从一些可选的文字里随机挑选,然后组成回复,概率越大的越容易被挑选。

让我们通过一个简单的对话示例来理解:

用户:你喜欢什么动物?
AI:我喜欢[待选词]

假设模型对不同动物的初始倾向概率如下:

动物 初始概率
0.50
0.25
老鼠 0.23
0.02

2. Top-k:控制候选池大小 想象你在点餐,Top-k就像是"我只看菜单前k个最受欢迎的菜"。

  • 核心概念:限制可选词的数量上限
  • 工作方式
    • 对所有可能的词按概率排序
    • 只保留概率最高的k个词
    • 在这k个词中进行选择

例如,当设置top-k=3时:

  • ✓ 保留:猫(0.50)、狗(0.25)、老鼠(0.23)
  • ✗ 排除:羊(0.02)

3. Top-p(核采样):控制概率总和 这就像说"我要点的菜加起来要占菜单总销量的p%"。

  • 核心概念:限制累积概率阈值
  • 工作机制
    • 从高到低累加词的概率
    • 当累积概率超过p时停止
    • 在这些词中选择

举例说明:

  • top-p = 0.50:只选"猫"(0.50)
  • top-p = 0.75:选"猫+狗"(0.75)
  • top-p = 0.98:选"猫+狗+老鼠"(0.98)
  • top-p = 0.97: 选“猫+狗+鼠”(0.98)

4. Top-k与Top-p组合使用 这两个参数同时使用时,采用"双重过滤"机制:

  1. 先应用Top-k筛选
  2. 再在筛选结果上应用Top-p
  • 同时调整top-p和top-k示例
    • 步骤:取交集,先符合top-k条件,再符合top-p条件
    • 以 top-k=3 , top-p=0.8 为例子,选 “猫+狗+鼠“ = 0.98>0.8,
    • 以 top-k=3 , top-p=0.74 为例子,选 “猫+狗“ = 0.75>0.74
    • 以 top-k=3 , top-p=0.99 为例子,选 “猫+狗+鼠” = 0.98<0.99,虽然猫+狗+鼠<0.99,但是由于top-k=3是先行条件,所以依然取“猫狗鼠”

5. Temperature(温度):调节概率分布 Temperature就像是调节"创造力"的旋钮:

  • 低温效果(如0.7):
    • 更保守的选择
    • 高概率词的优势更明显
动物 温度 = 0.7 概率
0.55
0.22
老鼠 0.18
0.05
  • 高温效果(如1.5):
    • 更富创造力的选择
    • 概率分布更均匀
动物 温度 = 1.5 概率
0.3
0.3
老鼠 0.2
0.2

6. 实际应用建议

  1. 场景选择
  • 需要准确、可控的回答:选择低temperature + 低top-p
  • 需要创意发散:选择高temperature + 高top-p
  • 需要平衡性:可以适当调整top-k

补充实例

以五言绝句的方式创作三篇关于网恋的诗

0.7temperature

1.8temperature

  • 以图中标注点为对比,大家可以看到在1.8温度下明显出现了写诗很不可能出现的“键盘”,在一般情况下“键盘”概率肯定处于低位的,但是由于温度拉高后的平衡,这种词也有可能出现了。这就是所谓的“具有更大的创造性”
  • 所以如果追求最优解的话,温度可以尽量调低,比如“数学,政府公文,论文报告”

7. 总结

  • Top-k:控制可选项数量
  • Top-p:控制概率覆盖范围
  • Temperature:调节概率分布曲线
  • 三者结合使用能更精确地控制模型的输出特性

懒得写了,写累了
希望有满血o1或者o1 pro的佬测评丢图,我可以放在文中

110 Likes

讲的挺清楚的

8 Likes

跟着佬友又学到了

4 Likes

太长了我都自己懒得看

5 Likes

学到了,感谢分享 :smiling_face:

3 Likes

解释的好清晰,终于弄懂了

4 Likes

模型是知道 了,还没想到应用到哪些场景最为合适

3 Likes

当做o1平替先试试,但是不知道算不算满血,需要有满血o1的佬测评一下

2 Likes

谢谢分享!

2 Likes

chatgpt 的 o1 答案是37.32%:

2 Likes

是正确的哦

1 Like

不懂就问,可以用这种思维链ai替我玩金铲铲吗

1 Like

非常感谢楼主的科普,我受益匪浅(真心话)。感觉这个贴子的标签都可以换成文档类的了,写的太通俗易懂了

1 Like

已更换,主要不知道有啥区别,就基本放搞7里面了

1 Like

学习学习

这个要agent ai那种程度才行吧,如果你能把金铲铲的数据走转为化文本给他,她倒是可有办法,游戏的话,实时识别你的屏幕都是大难题依然。

1 Like

我也不太能分得清,但是直觉觉得丢在文档类别,能有更多的佬友来阅读

你需要专业模型,而不是大模型。google 的 AlphaGo 系列早就实现了。

2 Likes

感谢大佬科普

写的挺好的 挺有趣的测试