【转载】清华大学开源项目突破大模型算力瓶颈:RTX 4090 单卡实现 DeepSeek-R1 满血运行

清华大学开源项目突破大模型算力瓶颈:RTX 4090 单卡实现 DeepSeek-R1 满血运行 - IT之家

20 Likes

感谢推荐

本质上还是要巨量内存的,我记得很早之前就有这种东西了,清华这个应该是做了一个新架构,能做到gpu资源分配的更合理,推理更快吧。

感谢看看

还是ktransformer…

1 Like

转载已经到了只贴一个链接的地步了(?

9 Likes

如图所示,KTransformers 团队于 2 月 10 日成功在 24 GB 显存 + 382 GB 内存的 PC 上实现本地运行 DeepSeek-R1、V3 的 671B 满血版,速度提高 3~28 倍。

也不是一般人能跑的:joy:

2 Likes

32G已经很低了
但是我服务器只有1张H800

1 Like

可以可以

拉到最后看到 R1 No Thinking

这么厉害

KTransformers,看上去是比ollama要好很多

借助于 KTransformers ,
普通用户只需 24G 显存(还得有大量内存和好的cpu)即可在本地运行 DeepSeek-R1、V3 的 671B 满血版。
生成速度最高能达到 14 tokens/s。

看了原文,除了4090,还需要价格两万多的CPU,以及至少1T的内存。价格比我目前看到的最低价方案高。

清华現在淪落到这水平?

起码放点介绍吧,别只放个标题啊(

1 Like

这么厉害了吗?那是不是4060可以搞72B了

有人测试过吗 据说是Q2

1 Like

真的就厉害了

有个问题,个人角度进行本地化部署的出发点是什么?信息安全?

可能只是官网太慢了吧