关于硅基流动QwQ 32B思考截断的研究发现

:one:不做任何修改,默认4K截断

:two:调整max token为32768会报错,发现实际能设置的max token=32768-提示-问题

:three:设置max token=32000,测试 @yeahhe 佬题库的这个题目

在平面四边形ABCD中,AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。将\triangle ACD沿AC翻折至\triangle ACP,其中P为动点。 求二面角A - CP - B的余弦值的最小值。

经过数十次测试下来,截断长度在6000-13600 tokens不等,平均8500tokens,虽然远不及设定的32000,但是至少能比默认的4K强得多,完成绝大多数题目没什么问题

顺便附上Open WebUI的设置

:warning: 题外话

顺便提一嘴,DeepSeek V3/R1都是8K,但默认为4K,根本就没法用,推荐设置为8000;Fireworks可以设置为164K,能把这道题做出来,与默认的2K差别很大

18 个赞

我用vLLM+A800 80G启动的设定35K,不生效,还是会截断,后面选择在工作流里面添加记忆机制,让它“继续”,就能接着输出了。

参数量不足限制了,希望能给个大一些的模型,但是显存要求会比较高

1 个赞

估计硅基是设备问题,设置了32K,但是做不到

等后面看看有没有1M提供

不知道Pro会提高tokens上限不?

应该没啥用吧,QwQ 32B可能是模型本身受限,提供的窗口没达到32K

你确定是模型的问题?

文档里说是给了32,000 tokens (extendable to 131,072 tokens)

但是现在没有一个能给的,Qwen官方的试试?

你试过百炼平台的API?我感觉是硅基的诚意不够

我提问了个“虚数i开i次方根等于多少?”

chat.qwen.ai 的在输出到一定量之后会卡顿一下然后继续,卡顿了4次,但是没有可视截断

硅基现在确实不太行

记忆机制怎么搞的佬?fastgpt还是dify

硅基说好了昨天下架国外模型,但是models列表仍然在

两个都可以,你可以选择自带的记忆功能,也可以自己写个条件判断输出完成与否(在prompt那里让AI在输出完整结果之后添加一个标记)

1 个赞

等几天看看,我看有几个模型加了备案号

懂了感谢 另外vllm启动的设定–max-model-len是输入+输出的总长度是吧?

模型上下文长度,不设定的话就默认读取config.json里的值

我一般都默认的,改的最多其实是gpu_memory_utilization

输出长度没法控制是吗?

羡慕死了能有80G的卡tieba_087

输出没法控制,不过你可以预设提示词让它答案尽量简洁以实现较短输出

我感觉还是groq的速度和上下文不错 :nerd_face:

:hear_no_evil_monkey: 硅基用来跑翻译的 Qwen-72B 今天 503 了