Github Models 未限制 o1 输出 tokens 数量,附 reasoning_effort 视角下的降智

Github Models 前段时间开放了 o1 模型(响应的 model 参数为 o1-2024-12-17),早前开放的 o1-preview 和 o1-mini 存在 max_completion_tokens=4000 限制。测试发现 o1 的最大的补全长度能够超出 4k(比较稳定地来到 19k)。

使用下面帖子中提供的 prompt 进行测试:

进一步测试了 o1 特有的 reasoning_effort 参数不同取值下的思考时间(每组测试两次):

reasoning_effort 思考时间
low 1m25s±10s
medium 30s,3min
high 3m±10s

对比帖子中各位佬友反馈的时间分布,可以一定程度上理解目前基于 reasoning_effort 的“降智”策略。而未生成 “思考标题” 时降智为 o1-mini,同时其它模型重定向为 4o-mini,应该是真正意义上的降智了。

API Reference - OpenAI API

reasoning_effort

o1 models only. Defaults to medium

Constrains effort on reasoning for reasoning models. Currently supported values are low, medium, and high. Reducing reasoning effort can result in faster responses and fewer tokens used on reasoning in a response.

这个特性似乎提供了一种对降智原理的解释。但少数(如新账号)在同一 prompt 下出现长达 7m 的思考时间仍难以解释。


另外请教各位佬友一个问题,使用 cf 解析 dns 时开启 Proxy 后,cf 存在一个默认的 100s Proxy Read Timeout 限制,导致 cf 解析的 one-api 转发 o1 推理模型在 stream=false 时(github models限制)很容易超时出现 empty response。大家是怎么延长这个超时限制的?cf 似乎只允许 enterprise plan 修改这个参数。

1 个赞

这给了参数不能算降智吧

1 个赞

这么说也是 :melting_face:

同问帮顶

看了一下论坛以往的帖子和 one/new-api 项目的 issues,524 超时这个问题无解 :sweat_smile: