o1-preview 显式指定模型参数时的异常行为

更新:

经过更多测试,该问题可能并不存在(随机性导致)。


对于 o1-preview 官方文档中提到:

temperature and top_p are fixed at 1 , while presence_penalty and frequency_penalty are fixed at 0
Reasoning models - OpenAI API

然而通过在 API 调用 o1-preview 模型时,在请求体中使用这四个参数相比不使用这四个参数,模型的能力在一些问题中显示出较大差异,以下面的问题为例:

统计学中,随机变量在定义域上有限是否能推出这个随机变量的期望也有限?如果不能,你能举出反例说明吗?

带上这 4 个参数时,多次尝试中模型总是得到肯定答复(错误:x:),而不使用这 4 个参数时模型能够得到否定答复(正确:white_check_mark:)。该问题在 gpt-4o 下能够得到否定答复(正确:white_check_mark:)。

经过测试,Github Models 和 OpenAI API 均复现了以上现象。

问题在于,很多三方对话客户端在请求体中默认携带了这几个参数且无法省略,可能导致 o1-preview 的能力受到影响。

1 Like

正确答案是什么

既然API默认这几个参数是固定的 那理论上传不传这几个参数都没影响呀

随机变量在定义域上有限并不能保证其期望也是有限的。

反例:

设某随机变量 X 定义在有限的定义域 D = \{1, 2, 3, \ldots, n\} 上(即 $ |D| < \infty $),但对应的概率分布和值的增长模式可能导致期望发散。

考虑一个例子:

  • 定义域: D = \{1, 2, 3, \ldots, n\} (有限集合)
  • 概率分布:令随机变量取值 X = k 的概率 P(X = k) = \frac{C}{k^2} ,其中 C 是归一化因子。

计算 C

C = \frac{1}{\sum_{k=1}^{n} \frac{1}{k^2}}

随机变量的期望为:

\mathbb{E}[X] = \sum_{k=1}^{n} k \cdot P(X = k) = \sum_{k=1}^{n} k \cdot \frac{C}{k^2} = C \sum_{k=1}^{n} \frac{1}{k}

注意到部分和 \sum_{k=1}^{n} \frac{1}{k} 是调和级数,其增长近似为 \ln(n)。当 n \to \infty ,这个和发散。因此,如果定义域的值虽然有限但较大,可能会导致 \mathbb{E}[X] 很大甚至趋于无限。

即使在有限定义域上,如果概率分布赋予较大的值较高的概率权重,其期望仍可能变得非常大甚至趋于无穷。


综上,随机变量的定义域有限并不保证期望有限

参数影响这么大的吗

那我还好,用的 nextchat,都答上来了(ps. aigc 要截图)

是的,按照官方文档在请求体中使用这四个参数 temperature=1, top_p=1, presence_penalty=0, frequency_penalty=0 会产生与不带参数在能力上不一致的结果。比如 ChatGPT-Next-Web 默认会带上前三个参数。

噢需要加上一个前缀 统计学中,,我写帖子的时候删了。

原prompt:

统计学中,随机变量在定义域上有限是否能推出这个随机变量的期望也有限?如果不能,你能举出反例说明吗?


做了更多测试,结果确实比较随机 :bili_001:,这个问题可能并不存在。奇怪之前测试的时候没有出现例外。

没有,前缀是我自定义的名字,因为 nextchat 固定了 o1 非流,官方支持流式了,调用流式体验更好 :joy: