做个纯CPU推理的实验

yhp666 · 2025 年2 月 7 日 16:42

今天看到各种几万块钱搞定满血Deepseek-R1的方案，到底这种纯cpu的方案是否可行呢？实践出真知，给各位佬省省宝贵时间。

这是ollama上下载的4bit量化版Deepseek-R1:671b 讲真这还是打折的满血r1因为我实在找不到1.4TB内存的服务器了

1分22秒啊，就问了个好…大概感觉平均1秒都吐不出1个字来

再上机器配置，这机器现在2手看成色大概不到10万

Server : Dell PowerEdge R830
CPU : Intel(R) Xeon(R) CPU E5-4660 v4 @ 2.20GHz *4 （128 core）
Memory : 16GB 2400MHz DDR4 *32

推理时候的系统负载

top - 00:50:27 up 1044 days, 12:45,  3 users,  load average: 48.55, 20.40, 14.16
Tasks: 1006 total,   2 running, 1004 sleeping,   0 stopped,   0 zombie
%Cpu(s): 46.9 us,  3.7 sy,  0.0 ni, 49.5 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem : 52807392+total,   717328 free, 44008966+used, 87266928 buff/cache
KiB Swap:        0 total,        0 free,        0 used. 85815840 avail Mem

   PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
 42209 ollama    20   0  419.9g 414.9g   3756 S  6347 82.4 596:58.74 /usr/local/lib/ollama/runners/cpu_avx2/ollama_llama_server runner --model /us+

所以各位佬想想那些能免费提供满血Deepseek-R1:671b的公司都得多豪横？图什么呢？

stevessr · 2025 年2 月 7 日 16:45

难道是培养技术骨干^_^

random1zation · 2025 年2 月 7 日 16:54

好像只用了一半的核？

pengzhile · 2025 年2 月 7 日 16:55

~~图一乐~~ 其实大公司都是用h100或者h800搭建的，平时做训练也做不出什么成果，不如拿来推理deepseek，给自己公司免费打打广告

yhp666 · 2025 年2 月 7 日 16:56

是的，ollama runner的参数是

–ctx-size 8192 --batch-size 512 --threads 64

pengzhile · 2025 年2 月 7 日 16:58

纯cpu推理的瓶颈还是在内存带宽上。有人用ddr5测试过，纯ddr5跑满血671b的速度也就3~4 token/s

yhp666 · 2025 年2 月 7 日 17:06

也不排除这种可能，但总规成本是太贵了

话题		回复	浏览量
X79平台用cpu低成本跑deepseek r1 671b是否可行搞七捻三 DeepSeek , 人工智能 , 快问快答	17	472	2025 年1 月 31 日
本地部署70b以上的满血版R1,大概需要什么配置电脑? 搞七捻三 DeepSeek , 人工智能 , 快问快答	29	1480	2025 年2 月 7 日
本地部署DeepSeek V3，硬件成本90万？开发调优纯水	15	961	2025 年1 月 25 日
从固态加载非蒸馏版671B deepseek 开发调优人工智能	6	555	2025 年1 月 31 日
Deepseek本地搭建的硬件配置条件开发调优 DeepSeek , 人工智能 , 快问快答	20	355	2025 年2 月 7 日

做个纯CPU推理的实验

相关话题