部署满血版R1最低需要什么配置？

venjye · 2025 年2 月 19 日 08:26

想整一个内网代码分析和构建的大模型服务，如果部署一个满血版的R1大概要上到什么配置，大概多少米？

Microsoft · 2025 年2 月 19 日 08:26

至少几百万吧

venjye · 2025 年2 月 19 日 08:28

百万级？那可以死心了。。

huangyzzz · 2025 年2 月 19 日 08:29

要满足生产力，最少的要百万吧。站内有好几个帖子讨论过，可以看看。有个配置计算器可以看看,地址： DeepSeek 模型兼容性检测

guanren · 2025 年2 月 19 日 08:30

看你要求了能接受一个字一个字那几万应该问题不大要是多人协同这种.
打得开和流畅两个价位

bytebit · 2025 年2 月 19 日 08:31

可以了解下清华那个，几W就可以了。但肯定不是纯满血

ZoroAster · 2025 年2 月 19 日 08:37

github.com/kvcache-ai/ktransformers

doc/en/DeepseekR1_V3_tutorial.md

main

<!-- omit in toc -->
# GPT-4/o1-level Local VSCode Copilot on a Desktop with only 24GB VRAM
- [SUMMARY](#summary)
	- [Show Case Environment](#show-case-environment)
	- [Bench Result](#bench-result)
		- [V0.2.1](#v021)
			- [Memory consumption:](#memory-consumption)
			- [Change Log](#change-log)
			- [Benchmark Results](#benchmark-results)
		- [V0.2](#v02)
			- [Settings](#settings)
			- [Memory consumption:](#memory-consumption-1)
			- [Benchmark Results](#benchmark-results-1)
		- [V0.3-Preview](#v03-preview)
			- [Settings](#settings-1)
			- [Memory consumptions:](#memory-consumptions)
			- [Benchmark results](#benchmark-results-2)
	- [How to Run](#how-to-run)
		- [V0.2 \& V0.2.1 Showcase](#v02--v021-showcase)
			- [Single socket version (32 cores)](#single-socket-version-32-cores)

此文件已被截断。显示原始文件

可以看看这个，不过听说对内存的寿命影响比较大，但至少能跑。

ZoroAster · 2025 年2 月 19 日 08:39

按照ktransformers官方的信息，
模型：DeepseekV3-BF16（CPU 在线量化为 int8，GPU 在线量化为 int4）
CPU：cpu_model_name：Intel (R) Xeon (R) Gold 6454S，每个插槽 32 个内核，2 个插槽，2 个 numa 节点
图形处理器：(1~4)x 4090D 24GVRAM（需要更多 VRAM 以获得更长的启动时间）

内存消耗：

644GB DRAM，至少 14GB VRAM

基准结果

Prompt length 提示长度	1K	2K	4K	8K
KTrans （8 位专家）预填充令牌/秒	185.96	255.26	252.58	195.62
KTrans （6 名专家）预填充令牌/秒	203.70	286.55	271.08	207.20

one_max · 2025 年2 月 19 日 08:46

70B的，都慢成狗，满血的，还是要百万，期待清华的研究，把价格打下来

baipiaodang · 2025 年2 月 19 日 08:47

看到好几次这问题了
都这么有钱吗

ZoroAster · 2025 年2 月 19 日 08:48

不一定，70B的基座是稠密模型，671B反而是MOE，激活参数大概在37B左右，反而可能比70快。

kiki · 2025 年2 月 19 日 08:48

这个得问领导…大部分人都不知道llm,出圈之后老想着奇奇怪怪的想法

ZoroAster · 2025 年2 月 19 日 08:49

也可能是某些老板的突发奇想觉得这个热门就想自己部署一套，然后让员工去问。

kiki · 2025 年2 月 19 日 08:50

但是切换后面还是要载入专家模型啊…这里切换也要时间吧?我很好奇…

venjye · 2025 年2 月 19 日 08:51

真相了。。

ZoroAster · 2025 年2 月 19 日 08:54

选择专家与确定权重的时间很低的

kiki · 2025 年2 月 19 日 08:55

什么显卡?

Mrzqd · 2025 年2 月 19 日 08:55

使用专家模式需要cpu支持amx指令集

Mrzqd · 2025 年2 月 19 日 08:56

4090。单卡和双卡推理速度基本一样。貌似和显卡数量没关系。

Mrzqd · 2025 年2 月 19 日 08:57

看issue说速度和内存带宽有关系？

话题		回复	浏览量
512GB内存Mac Studio发布，DeepSeek满血跑起来有多香？搞七捻三人工智能 , 纯水	48	1446	2025 年3 月 6 日
DeepSeek 本地部署配置清单搞七捻三 DeepSeek , 人工智能	26	2407	2025 年3 月 7 日
Grok3与o3 mini high的回答，大家品品搞七捻三 ChatGPT , OpenAI , 人工智能	13	304	2025 年3 月 5 日
佬友们，求Deepseek显卡资源或一体机资源搞七捻三职场 , 纯水	33	270	2025 年3 月 13 日
手搓Ktransformer运行Deepseek-r1:671b_Q2_K_XS 开发调优 DeepSeek , 人工智能	58	1288	2025 年3 月 7 日

部署满血版R1最低需要什么配置？

内存消耗：

基准结果

相关话题