今天看到各种几万块钱搞定满血Deepseek-R1的方案,到底这种纯cpu的方案是否可行呢?实践出真知,给各位佬省省宝贵时间。
这是ollama上下载的4bit量化版Deepseek-R1:671b 讲真这还是打折的满血r1因为我实在找不到1.4TB内存的服务器了
1分22秒啊,就问了个好…大概感觉平均1秒都吐不出1个字来
再上机器配置,这机器现在2手看成色大概不到10万
Server : Dell PowerEdge R830
CPU : Intel(R) Xeon(R) CPU E5-4660 v4 @ 2.20GHz *4 (128 core)
Memory : 16GB 2400MHz DDR4 *32
推理时候的系统负载
top - 00:50:27 up 1044 days, 12:45, 3 users, load average: 48.55, 20.40, 14.16
Tasks: 1006 total, 2 running, 1004 sleeping, 0 stopped, 0 zombie
%Cpu(s): 46.9 us, 3.7 sy, 0.0 ni, 49.5 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : 52807392+total, 717328 free, 44008966+used, 87266928 buff/cache
KiB Swap: 0 total, 0 free, 0 used. 85815840 avail Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
42209 ollama 20 0 419.9g 414.9g 3756 S 6347 82.4 596:58.74 /usr/local/lib/ollama/runners/cpu_avx2/ollama_llama_server runner --model /us+
所以各位佬想想那些能免费提供满血Deepseek-R1:671b的公司都得多豪横?图什么呢?