如题,我试了好几个问题,似乎都是思考了十分钟左右就断掉了。open webui的消息上显示是仍然在思考,但实际上已经不再更新思考内容了
可不可以发一个问题,我在nvidia里测试一下。
不过max token一般只有4K左右,按理说不会用这么长时间,azure吐字1.5 token/s ?
az吐字太慢了
比如【长期更新Wiki】语言模型区分题库:主要用来区分语言模型,也能测试逻辑能力 里的这道题目
在平面四边形ABCD中,AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。将\triangle ACD沿AC翻折至\triangle ACP,其中P为动点。 求二面角A - CP - B的余弦值的最小值。
az吐字确实挺慢的
佬 nvidia的deepseek r1有深度思考功能吗 拿了nVidia的api,不知道怎么开启深度思考
peer closed connection without sending complete message body
不是超时,是token超了,用百度翻译统计的字数,显示共输出5112字,用时5分10秒
原来如此,那就没办法了,话说az输出确实慢,我刚刚又问了一遍,现在输出了15分钟还没结束
不论如何,感谢解答
nvidia的r1速度快吗
佬是在哪里使用,如果临时命令行使用,可以用下面的代码
from openai import OpenAI
client = OpenAI(
base_url = "https://integrate.api.nvidia.com/v1",
api_key = "nvapi-xxxxxxxxxxxxxxxxxxxxxxxxxxxx"
)
completion = client.chat.completions.create(
model="deepseek-ai/deepseek-r1",
messages=[{"role":"user","content":"在平面四边形ABCD中,AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。将\triangle ACD沿AC翻折至\triangle ACP,其中P为动点。 求二面角A - CP - B的余弦值的最小值。"}],
temperature=0.6,
top_p=0.7,
max_tokens=4096,
stream=True
)
for chunk in completion:
if chunk.choices[0].delta.content is not None:
print(chunk.choices[0].delta.content, end="")
另外nvidia的api是兼容openai格式的,直接用curl请求也行的,上面的python代码可以流式显示输出。
用nvidia的吧,反正都是免费的,速度还比azure的快
刚才的问题,平均是1秒16个字
还是官方API快点
拿的密钥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****
api地址https://integrate.api.nvidia.com
竟然无法连通
十分钟还不长??
我这边是可以直连的
加上节点试试?或者直接添加到one-api或new-api里,用你的openweiui/nextchat等客户端
另外,佬是说的深度思考是?
我刚才看了一下<think>
的内容后紧跟的就是输出内容,两个<think>
里面的就是Cot
az好慢。。
此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。