关于硅基流动QwQ 32B思考截断的研究发现

F-droid · 2025 年3 月 7 日 01:31

在平面四边形ABCD中，AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。将\triangle ACD沿AC翻折至\triangle ACP，其中P为动点。 求二面角A - CP - B的余弦值的最小值。

顺便附上Open WebUI的设置

题外话

顺便提一嘴，DeepSeek V3/R1都是8K，但默认为4K，根本就没法用，推荐设置为8000；Fireworks可以设置为164K，能把这道题做出来，与默认的2K差别很大

Cimix · 2025 年3 月 7 日 01:44

我用vLLM+A800 80G启动的设定35K，不生效，还是会截断，后面选择在工作流里面添加记忆机制，让它“继续”，就能接着输出了。

参数量不足限制了，希望能给个大一些的模型，但是显存要求会比较高

F-droid · 2025 年3 月 7 日 01:46

估计硅基是设备问题，设置了32K，但是做不到

Cimix · 2025 年3 月 7 日 01:48

等后面看看有没有1M提供

F-droid · 2025 年3 月 7 日 01:49

不知道Pro会提高tokens上限不？

Cimix · 2025 年3 月 7 日 01:51

应该没啥用吧，QwQ 32B可能是模型本身受限，提供的窗口没达到32K

F-droid · 2025 年3 月 7 日 01:52

你确定是模型的问题？

Cimix · 2025 年3 月 7 日 01:54

文档里说是给了32,000 tokens (extendable to 131,072 tokens)

但是现在没有一个能给的，Qwen官方的试试？

F-droid · 2025 年3 月 7 日 01:58

你试过百炼平台的API？我感觉是硅基的诚意不够

Cimix · 2025 年3 月 7 日 02:04

我提问了个“虚数i开i次方根等于多少？”

chat.qwen.ai 的在输出到一定量之后会卡顿一下然后继续，卡顿了4次，但是没有可视截断

硅基现在确实不太行

WyInnovate · 2025 年3 月 7 日 02:05

记忆机制怎么搞的佬？fastgpt还是dify

F-droid · 2025 年3 月 7 日 02:06

硅基说好了昨天下架国外模型，但是models列表仍然在

Cimix · 2025 年3 月 7 日 02:07

两个都可以，你可以选择自带的记忆功能，也可以自己写个条件判断输出完成与否（在prompt那里让AI在输出完整结果之后添加一个标记）

Cimix · 2025 年3 月 7 日 02:08

等几天看看，我看有几个模型加了备案号

WyInnovate · 2025 年3 月 7 日 02:10

懂了感谢另外vllm启动的设定–max-model-len是输入+输出的总长度是吧？

Cimix · 2025 年3 月 7 日 02:12

模型上下文长度，不设定的话就默认读取config.json里的值

我一般都默认的，改的最多其实是gpu_memory_utilization

WyInnovate · 2025 年3 月 7 日 02:16

输出长度没法控制是吗？

羡慕死了能有80G的卡

Cimix · 2025 年3 月 7 日 02:17

输出没法控制，不过你可以预设提示词让它答案尽量简洁以实现较短输出

Todddiana · 2025 年3 月 7 日 02:18

我感觉还是groq的速度和上下文不错

Qiner · 2025 年3 月 7 日 02:21

硅基用来跑翻译的 Qwen-72B 今天 503 了

话题		回复	浏览量
livebench将重跑qwq 32b，据说成绩将会大幅提高，甚至超过deepseek R1 前沿快讯人工智能	43	1582	2025 年3 月 10 日
好家伙真是好家伙 QwQ-32B 文笔没谁了搞七捻三人工智能	42	2335	2025 年3 月 7 日
QwQ-32B发布前沿快讯人工智能	79	2990	2025 年4 月 3 日
最适合沉浸式翻译的模型：火山方舟（字节）的Deepseek-V3 资源荟萃 DeepSeek , 人工智能 , 沉浸式翻译	123	6240	2025 年4 月 5 日
硅基流动何去何从？搞七捻三人工智能	33	1607	2025 年4 月 1 日