做个纯CPU推理的实验

今天看到各种几万块钱搞定满血Deepseek-R1的方案,到底这种纯cpu的方案是否可行呢?实践出真知,给各位佬省省宝贵时间。

这是ollama上下载的4bit量化版Deepseek-R1:671b 讲真这还是打折的满血r1因为我实在找不到1.4TB内存的服务器了 :joy:

1分22秒啊,就问了个好…大概感觉平均1秒都吐不出1个字来

再上机器配置,这机器现在2手看成色大概不到10万

Server : Dell PowerEdge R830
CPU : Intel(R) Xeon(R) CPU E5-4660 v4 @ 2.20GHz *4 (128 core)
Memory : 16GB 2400MHz DDR4 *32

推理时候的系统负载

top - 00:50:27 up 1044 days, 12:45,  3 users,  load average: 48.55, 20.40, 14.16
Tasks: 1006 total,   2 running, 1004 sleeping,   0 stopped,   0 zombie
%Cpu(s): 46.9 us,  3.7 sy,  0.0 ni, 49.5 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem : 52807392+total,   717328 free, 44008966+used, 87266928 buff/cache
KiB Swap:        0 total,        0 free,        0 used. 85815840 avail Mem

   PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
 42209 ollama    20   0  419.9g 414.9g   3756 S  6347 82.4 596:58.74 /usr/local/lib/ollama/runners/cpu_avx2/ollama_llama_server runner --model /us+

所以各位佬想想那些能免费提供满血Deepseek-R1:671b的公司都得多豪横?图什么呢?

4 个赞

难道是培养技术骨干^_^

1 个赞

好像只用了一半的核?

图一乐 其实大公司都是用h100或者h800搭建的,平时做训练也做不出什么成果,不如拿来推理deepseek,给自己公司免费打打广告

1 个赞

是的,ollama runner的参数是

–ctx-size 8192 --batch-size 512 --threads 64

纯cpu推理的瓶颈还是在内存带宽上。有人用ddr5测试过,纯ddr5跑满血671b的速度也就3~4 token/s

也不排除这种可能,但总规成本是太贵了 :joy: