上题目:
我有两件互相独立的装备,分别可以增加我百分之9和百分之13的暴击几率,那么,我现在攻击两次,两次攻击至少有一次暴击的概率是多少
对比对象
- gemini2.0 flash thing experiment
- claude 3.5 sonnet/opus
- gpt-4o
- deepseek-r1
- o1(评论区佬友测评添加)
gemini:
补充测试,追加问题:如果是百分之8和百分之12的暴击率呢?分开询问是正确的
但是如果一起问,就会出错
甚至在后面用原问题提问,依然绕不回来
通过
deepseek-r1
思考6秒,首先明确了这是一个二项分布问题,这里其他模型都没指出,不知道是不是提示词原因,还是说思维链就是更完整
在排版布局上也更具优势,清晰大方,难道是因为我是中文提问所以有专门优化?
通过
claude (sonnet和opus)
- 第一次中文提问,答案错误
- 第二次怀疑语料问题,调用英文,答案仍然错误
- 第三次补充说明,答案正确。两个模型都是同样的表现,因此就贴sonnet
跌跌撞撞通过
gpt-4o aicn未降智版本
第一次失败,尝试调用prompt
调用专门math提示词后成功
4o评论区补充测试官网一遍过
添加评论区老友o1评测:
补充评论区佬友o1pro测评
https://chat01.ai/en/chat/01JJ4F0RN6KA2QQZKH8HQ1SQ1Q
模型 | 表现概述 | 结果 | 备注 |
---|---|---|---|
Gemini 2.0 Flash | 直接给出正确解法,清晰展示概率计算逻辑。 补充测试:若问题改为“我有两件互相独立的装备,分别可以增加我百分之9和百分之13的暴击几率,那么,我现在攻击两次,两次攻击至少有一次暴击的概率是多少,如果是百分之8和百分之12的暴击率呢?“ 那么会出现将暴击理解为“第一次攻击只装备第一件装备,第二次攻击只装备第二件装备”的语意理解不准情况。 | 直接通过 | 中文支持良好,排版简洁,未提及二项分布但逻辑完整。 二次测试,发现出现理解偏差,怀疑是原问题更改后导致模型对句子理解出现不准确,后面用原问题进行询问,也会按照原先思维惯性进行错误回答,可能是它的训练语料有过类似问题,匹配的是这种解法。 |
DeepSeek-R1 | 明确问题为二项分布,分步计算两次不暴击的互补概率。 | 高效通过 | 中文适配优秀,强调数学框架,6秒响应速度较快。 |
Claude 3.5 (Sonnet/Opus) | 首次中文回答错误(误加概率),英文提问仍错,补充说明后修正为互补概率法。 | 反复修正后通过 | 中文语境下需精确提示,独立概率叠加逻辑易出错。 |
GPT-4o (AICN) +gpt40官网 | aicn的4o初次回答误用概率加法,经数学提示词引导后改用互补概率法。 官网4o一次性答对,4omini在补充条件完整情况下也能答对 | aicn 4o未添加gpts情况下无法通过, 官网4o未添加gpts情况下可一次通过 | ainc的4o可能因为内置了提示词与审核的缘故,所以能力有所减弱?只能调用gpts进行补充强化? 官网4o因为只有普通内置提示词所以少了干扰? |
O1(社区测评) | o1.net与网页o1评测都是12秒左右解答,答案正确但是过程简略 | 直接通过 | 用户反馈存在版本差异(如o1 pro可能优化数学能力)。 |
———————————————————————————————————————分割线
模型微调里的temperatuer,top-p,top-k简单科普
说明:大模型的文本生成原理是从一些可选的文字里随机挑选,然后组成回复,概率越大的越容易被挑选。
让我们通过一个简单的对话示例来理解:
用户:你喜欢什么动物?
AI:我喜欢[待选词]
假设模型对不同动物的初始倾向概率如下:
动物 | 初始概率 |
---|---|
猫 | 0.50 |
狗 | 0.25 |
老鼠 | 0.23 |
羊 | 0.02 |
2. Top-k:控制候选池大小 想象你在点餐,Top-k就像是"我只看菜单前k个最受欢迎的菜"。
- 核心概念:限制可选词的数量上限
- 工作方式:
- 对所有可能的词按概率排序
- 只保留概率最高的k个词
- 在这k个词中进行选择
例如,当设置top-k=3时:
- ✓ 保留:猫(0.50)、狗(0.25)、老鼠(0.23)
- ✗ 排除:羊(0.02)
3. Top-p(核采样):控制概率总和 这就像说"我要点的菜加起来要占菜单总销量的p%"。
- 核心概念:限制累积概率阈值
- 工作机制:
- 从高到低累加词的概率
- 当累积概率超过p时停止
- 在这些词中选择
举例说明:
- top-p = 0.50:只选"猫"(0.50)
- top-p = 0.75:选"猫+狗"(0.75)
- top-p = 0.98:选"猫+狗+老鼠"(0.98)
- top-p = 0.97: 选“猫+狗+鼠”(0.98)
4. Top-k与Top-p组合使用 这两个参数同时使用时,采用"双重过滤"机制:
- 先应用Top-k筛选
- 再在筛选结果上应用Top-p
- 同时调整top-p和top-k示例
- 步骤:取交集,先符合top-k条件,再符合top-p条件
- 以 top-k=3 , top-p=0.8 为例子,选 “猫+狗+鼠“ = 0.98>0.8,
- 以 top-k=3 , top-p=0.74 为例子,选 “猫+狗“ = 0.75>0.74
- 以 top-k=3 , top-p=0.99 为例子,选 “猫+狗+鼠” = 0.98<0.99,虽然猫+狗+鼠<0.99,但是由于top-k=3是先行条件,所以依然取“猫狗鼠”
5. Temperature(温度):调节概率分布 Temperature就像是调节"创造力"的旋钮:
- 低温效果(如0.7):
- 更保守的选择
- 高概率词的优势更明显
动物 | 温度 = 0.7 概率 |
---|---|
猫 | 0.55 |
狗 | 0.22 |
老鼠 | 0.18 |
羊 | 0.05 |
- 高温效果(如1.5):
- 更富创造力的选择
- 概率分布更均匀
动物 | 温度 = 1.5 概率 |
---|---|
猫 | 0.3 |
狗 | 0.3 |
老鼠 | 0.2 |
羊 | 0.2 |
6. 实际应用建议
- 场景选择
- 需要准确、可控的回答:选择低temperature + 低top-p
- 需要创意发散:选择高temperature + 高top-p
- 需要平衡性:可以适当调整top-k
补充实例
以五言绝句的方式创作三篇关于网恋的诗
0.7temperature
1.8temperature
- 以图中标注点为对比,大家可以看到在1.8温度下明显出现了写诗很不可能出现的“键盘”,在一般情况下“键盘”概率肯定处于低位的,但是由于温度拉高后的平衡,这种词也有可能出现了。这就是所谓的“具有更大的创造性”
- 所以如果追求最优解的话,温度可以尽量调低,比如“数学,政府公文,论文报告”
7. 总结
- Top-k:控制可选项数量
- Top-p:控制概率覆盖范围
- Temperature:调节概率分布曲线
- 三者结合使用能更精确地控制模型的输出特性
懒得写了,写累了
希望有满血o1或者o1 pro的佬测评丢图,我可以放在文中