想整一个内网代码分析和构建的大模型服务,如果部署一个满血版的R1大概要上到什么配置,大概多少米?
11 个赞
至少几百万吧
百万级?那可以死心了。。
要满足生产力,最少的要百万吧。站内有好几个帖子讨论过,可以看看。有个配置计算器可以看看,地址: DeepSeek 模型兼容性检测
5 个赞
看你要求了 能接受一个字一个字 那几万应该问题不大 要是多人协同这种.
打得开和流畅 两个价位
可以了解下清华那个,几W就可以了。 但肯定不是纯满血
可以看看这个,不过听说对内存的寿命影响比较大,但至少能跑。
按照ktransformers官方的信息,
模型:DeepseekV3-BF16(CPU 在线量化为 int8,GPU 在线量化为 int4)
CPU:cpu_model_name:Intel (R) Xeon (R) Gold 6454S,每个插槽 32 个内核,2 个插槽,2 个 numa 节点
图形处理器:(1~4)x 4090D 24GVRAM(需要更多 VRAM 以获得更长的启动时间)
内存消耗:
644GB DRAM,至少 14GB VRAM
基准结果
Prompt length 提示长度 | 1K | 2K | 4K | 8K |
---|---|---|---|---|
KTrans (8 位专家) 预填充令牌/秒 | 185.96 | 255.26 | 252.58 | 195.62 |
KTrans (6 名专家) 预填充令牌/秒 | 203.70 | 286.55 | 271.08 | 207.20 |
70B的,都慢成狗,满血的,还是要百万,期待清华的研究,把价格打下来
看到好几次这问题了
都这么有钱吗
不一定,70B的基座是稠密模型,671B反而是MOE,激活参数大概在37B左右,反而可能比70快。
这个得问领导…大部分人都不知道llm,出圈之后老想着奇奇怪怪的想法
也可能是某些老板的突发奇想 觉得这个热门就想自己部署一套,然后让员工去问。
2 个赞
但是切换后面还是要载入专家模型啊…这里切换也要时间吧?我很好奇…
真相了。。
1 个赞
选择专家与确定权重的时间很低的
什么显卡?
使用专家模式需要cpu支持amx指令集
4090。单卡和双卡推理速度基本一样。貌似和显卡数量没关系。
看issue说速度和内存带宽有关系?