手搓Ktransformer运行Deepseek-r1:671b_Q2_K_XS

yhp666 · 2025 年2 月 23 日 13:48

先上效果图，可以看下CPU、GPU、显存利用率，以及大概15kotens/s在Dify里的效果

1、一定要仔细看官方文档，虽然前后有点绕嘴，但是实际上已经把需要注意的点交代清楚了。
2、没有256GB的物理内存，没有16GB的显存就可以放弃了。就算是2bit量化版本，也不是随便找个机器就能运行的。
3、或多或少也得有点基础，对于0基础纯靠gpt、claude、deepseek就想搞定私有化部署恐怕还有点困难。
4、这种环境也就是自己dev耍耍而已，真正企业应用甚至商业化去售卖绝对使不得。
详细文档如下：
ktransformer测试.pdf (462.3 KB)
文档里漏了一张Dify配置模型的截图

Yusheng · 2025 年2 月 23 日 13:50

真有佬开始测试新的运行框架了，牛逼

laikey.lau · 2025 年2 月 23 日 13:51

确实个人玩还得下血本

jiatao · 2025 年2 月 23 日 13:58

私有化部署的应用场景不太多

WyInnovate · 2025 年2 月 23 日 13:59

佬分隔符那里用默认的行？
我去连 vllm 跑的 70b 感觉显示不对啊

yhp666 · 2025 年2 月 23 日 14:01

有可能vllm跟ktransformers不一样？我这边用\n\n肯定是ok的

WyInnovate · 2025 年2 月 23 日 14:04

都是走的 OpenAI标准接口不应该啊
明天换个模型试试
我这边 dify 接 ollama 的 70b 输出总是会截断
发布的应用新开一个对话问一个问题都会的那种
是不是 dify 的会话隔离没做好(´･_･`)

yhp666 · 2025 年2 月 23 日 14:05

还有就是我Dify是最新版本的0.15.3

WyInnovate · 2025 年2 月 23 日 14:08

嗯我的也是
fastgpt 就没有流式返回分隔符这个必填项也没问题╮(¯▽¯)╭
另外佬你的会话会自动重命名话题吗？

yhp666 · 2025 年2 月 23 日 14:17

从来没见过自动重命名的情况

WyInnovate · 2025 年2 月 23 日 14:32

dify 官网就可以然后有提供重命名话题的 api
好家伙自部署版本没实装吗？

BenSu · 2025 年2 月 23 日 14:36

佬友也关注过这个…测试下来基本就是自己个人玩的那种么？多并发比如给几个人用是不是会卡顿之类的

WyInnovate · 2025 年2 月 23 日 14:38

多并发还是得 vllm
kt框架对多并发的支持目前好像不好感觉未来可期

taiyi747 · 2025 年2 月 23 日 14:39

前几天我在b站腾讯云TDP直播间，跟大佬们已经部署成功了，好用是好用，问题很多，需要处理好久

yhp666 · 2025 年2 月 23 日 14:45

两个并发还能忍，3个就变成蹦豆子了

handsome · 2025 年2 月 24 日 00:30

太强了！大佬

BenSu · 2025 年2 月 24 日 01:00

感谢，那只能用dev了……不过单卡可以671已经OK了

Brantfang · 2025 年2 月 24 日 01:06

果然是慢点，但是能用。这种异构效果其实很不错。降本增效。

aza · 2025 年2 月 24 日 01:09

设置配置模型那里: 系统模型

Cimix · 2025 年2 月 24 日 01:13

Q4能跑不？今天内存条刚好到，正准备上机器弄呢

话题		回复	浏览量
声称自己比llama.cpp快的ktransformers 资源荟萃人工智能 , 转载	21	893	2025 年3 月 5 日
DeepSeek 本地部署配置清单搞七捻三 DeepSeek , 人工智能	26	2414	2025 年3 月 7 日
512GB内存Mac Studio发布，DeepSeek满血跑起来有多香？搞七捻三人工智能 , 纯水	48	1451	2025 年3 月 6 日
部署满血版R1最低需要什么配置？开发调优 ChatGPT , 人工智能 , 快问快答	35	882	2025 年3 月 13 日
1W预算想玩本地大模型搞七捻三快问快答	60	954	2025 年3 月 22 日

手搓Ktransformer运行Deepseek-r1:671b_Q2_K_XS

相关话题