部署满血版R1最低需要什么配置?

想整一个内网代码分析和构建的大模型服务,如果部署一个满血版的R1大概要上到什么配置,大概多少米?

11 个赞

至少几百万吧

百万级?那可以死心了。。

要满足生产力,最少的要百万吧。站内有好几个帖子讨论过,可以看看。有个配置计算器可以看看,地址: DeepSeek 模型兼容性检测

5 个赞

看你要求了 能接受一个字一个字 那几万应该问题不大 要是多人协同这种.
打得开和流畅 两个价位

可以了解下清华那个,几W就可以了。 但肯定不是纯满血

可以看看这个,不过听说对内存的寿命影响比较大,但至少能跑。

按照ktransformers官方的信息,
模型:DeepseekV3-BF16(CPU 在线量化为 int8,GPU 在线量化为 int4)
CPU:cpu_model_name:Intel (R) Xeon (R) Gold 6454S,每个插槽 32 个内核,2 个插槽,2 个 numa 节点
图形处理器:(1~4)x 4090D 24GVRAM(需要更多 VRAM 以获得更长的启动时间)

内存消耗:

644GB DRAM,至少 14GB VRAM

基准结果

Prompt length 提示长度 1K 2K 4K 8K
KTrans (8 位专家) 预填充令牌/秒 185.96 255.26 252.58 195.62
KTrans (6 名专家) 预填充令牌/秒 203.70 286.55 271.08 207.20

70B的,都慢成狗,满血的,还是要百万,期待清华的研究,把价格打下来

看到好几次这问题了 :tieba_087:
都这么有钱吗

不一定,70B的基座是稠密模型,671B反而是MOE,激活参数大概在37B左右,反而可能比70快。

这个得问领导…大部分人都不知道llm,出圈之后老想着奇奇怪怪的想法

也可能是某些老板的突发奇想 :upside_down_face:觉得这个热门就想自己部署一套,然后让员工去问。

2 个赞

但是切换后面还是要载入专家模型啊…这里切换也要时间吧?我很好奇…

真相了。。

1 个赞

选择专家与确定权重的时间很低的

什么显卡?

使用专家模式需要cpu支持amx指令集

4090。单卡和双卡推理速度基本一样。貌似和显卡数量没关系。

看issue说速度和内存带宽有关系?