实在搞不懂Flash的思考机制,同样调用Veloera添加的Gemini Balance渠道,OpenWebUI那边使用2.5 Flash每次都会用英文思考,导致回复得比较慢;而用Python写的Telegram机器人(调用OpenAI库)这边很少思考,回复飞快,但是一旦思考的话都是用中文的。
后面那个是谷歌的思考摘要(假思考)呢ww
是啊,看上去用中文的思考内容应该是假思考,格式和正统的思考都不一样(没有分段式地思考)
不是,后面那个英文的是假思考,前面那个一直输出而不是分段输出的是真思考呀ww
啊?那我就不太懂了,Gemini的思考不都是一段一段地用英文思考的吗?为啥说OpenWebUI上显示的思考过程反而是假思考?
啊?前面那个中文的不是思考内容吧,什么时候 Google 又开放思考原文了?一直都是思考摘要
你有用什么提示词吗?
那是思考摘要,不是原文,是小模型总结过的,防蒸馏用的
为什么中文会飞快…
估计视觉效果,毕竟一直输出的感觉和分段输出还是不一样的呢ww
就是没有那些英文的思考过程,基本上发送给它之后,两三秒内就会返回一大段回答了。
而OpenWebUI那边不管你问多简单的问题,每次都要等它输出完一堆英文的思考过程,才开始往外输出回答。
没开 includeThoughts=true 的话 API 不返回思考摘要
官方文档:
感谢大佬解答!
也就是说,OpenWebUI默认带了这个参数,所以每次都会返回思考摘要;而Python调用OpenAI库写的机器人没有带这个参数所以没有思考摘要,对吗?
那么,Telegram机器人这边偶尔返回的thinking标签包裹的思考内容,可以理解为是大模型的不可控行为(假思考)?
要看你的上游接口有没有开,OWU 不会开(因为那是 Gemini 格式接口的参数,OWU 是 OpenAI 接口),反正我自用的 New-API 是打开的,就是填在渠道的参数覆盖那里,或者是模型重定向例如 gemini-2.5-pro->gemini-2.5-pro-thinking,New API 有个设置是 Gemini 思考适配,开了之后加上 -thinking 会自动打开那个选项
你用的接口是官方的 OpenAI 格式的接口还是接的中转?如果是中转的话那就是中转有多个上游,有的可能会返回摘要,有的不会。如果是官方的话,那就是官方抽风
那就说不通了。用的接口是Veloera→Gemini Balance→谷歌官方key。我的Telegram机器人用的也是OpenAI库,也没有特地加上这个参数。但是与OWU那边的返回就是不一样。应该还是OWU有什么特别的处理机制吧。
接个 Cloudflare AI Gateway 调试一下?AI Gateway 能看到调用日志(详细的参数和返回的结果)
有空再来折腾了。。。
应该是OWU不是简单采用OpenAI接口,而是有自己的处理方法。
不过现在又很难复现中文的thinking了,估计也有可能是官方抽风了。
你这中文思考怎么一股 R1 味? 不会是用了 pplx2api 渠道吧,那家经常用山寨 R1:r1-1776 冒充任何旗舰模型。
不是,就用的谷歌官方的。