20 Likes
感谢推荐
本质上还是要巨量内存的,我记得很早之前就有这种东西了,清华这个应该是做了一个新架构,能做到gpu资源分配的更合理,推理更快吧。
感谢看看
还是ktransformer…
1 Like
转载已经到了只贴一个链接的地步了(?
9 Likes
如图所示,KTransformers 团队于 2 月 10 日成功在 24 GB 显存 + 382 GB 内存的 PC 上实现本地运行 DeepSeek-R1、V3 的 671B 满血版,速度提高 3~28 倍。
也不是一般人能跑的
2 Likes
32G已经很低了
但是我服务器只有1张H800
1 Like
可以可以
拉到最后看到 R1 No Thinking
这么厉害
KTransformers,看上去是比ollama要好很多
借助于 KTransformers ,
普通用户只需 24G 显存(还得有大量内存和好的cpu)即可在本地运行 DeepSeek-R1、V3 的 671B 满血版。
生成速度最高能达到 14 tokens/s。
看了原文,除了4090,还需要价格两万多的CPU,以及至少1T的内存。价格比我目前看到的最低价方案高。
清华現在淪落到这水平?
起码放点介绍吧,别只放个标题啊(
1 Like
这么厉害了吗?那是不是4060可以搞72B了
有人测试过吗 据说是Q2
1 Like
真的就厉害了
有个问题,个人角度进行本地化部署的出发点是什么?信息安全?
可能只是官网太慢了吧