mac 内存是统一内存,意思是内存可以用作闪存?
14b 的可以部署吗?
14b完全没问题
我看 14b 内存要求 32g 以上,显存要求 12g 以上。还以为这两个要求叠加起来,要 44g 统一内存呢
他们都说mac的8G当win的16G用,现在该看看是不是了
14b到头
MAC是统一内存,并没有显存的概念。明天我给佬截图看看你就明白了
我m2 16g部署了7b的 推理我看内存占用500-1g 速度倒是挺慢只有25tokens/s
32B的蒸馏模型差不多
谁这么说的,这也太离谱了
- 先确定下mini本机的配置,主要看Memory:64GB
(base) xx@xxdeMac-mini ~ % system_profiler SPHardwareDataType
Hardware:
Hardware Overview:
Model Name: Mac mini
Model Identifier: Mac16,11
Model Number: Z1JV0005LCH/A
Chip: Apple M4 Pro
Total Number of Cores: 12 (8 performance and 4 efficiency)
Memory: 64 GB
System Firmware Version: 11881.61.3
OS Loader Version: 11881.61.3
Serial Number (system): **********
Hardware UUID: ********-****-****-****-60FD27367741
Provisioning UDID: 00006040-*****************
Activation Lock Status: Disabled
- ollama官网最新的0.5.7版本
(base) xx@xxdeMac-mini ~ % ollama -v
ollama version is 0.5.7
-
deepseek-r1:70b的私有化模型
deepseek是用llama3.3-70b为基础模型,蒸馏处理后得到的deepseek-r1-distill-llama-70b。这个可以在huggingface官网的r1找到出处。而全精度的deepseek-r1模型文件总计也有141G -
ollama对deepseek-r1:70b的量化处理
针对我的配置,我可以选择deepseek-r1:70b的私有化模型,64G内存肯定大于42G模型文件大小的,而671b那是绝对望尘莫及的(ollama官方模型网址)
(base) xx@xxdeMac-mini ~ % ollama list|grep deepseek
deepseek-r1:70b 0c1615a8ca32 42 GB 9 days ago
- 实战效率(这次长记性了,对于AI处理的过程不再贴文本必须截图)
先不考虑回答的质量如何,主要看日志里这次对话的耗时是1分52秒
(base) xx@xxdeMac-mini logs % tail -n 1 /workspace/.ollama/logs/server.log
[GIN] 2025/01/31 - 10:35:27 | 200 | 1m52s | 127.0.0.1 | POST "/api/chat"
所以我觉得以 @ZackYJ 佬你32G内存配置的mini,假如没有其他应用软件抢占内存的话,绝对可以私有化部署deepseek-r1:32b
感谢楼上大佬分享
14B 完全没问题,就是本地跑的
不清楚在 Mac 上的情况。不过,我用魔改的 2080 显卡,搭配 22GB 显存,刚好可以运行 Ollama 上的那个 32B 模型,内存占用大约在 20GB 左右。
我的是96g的M2 max ,跑70b的可以跑,但是速度有点慢(也能比较正常使用),但是跑32b的就很快了
蹲个结果,之前翻帖子好像说是可以,但32跟14b实际智商差不多。但速度慢很多
感觉私有化部署意义不大,没api好用。但不私有化部署就体现不出来加了3000快内存的意义
我就是32G的m4 mini,能跑4bit量化的32B 模型,但是太慢了,4-5token每秒。感觉没什么意义。。
————
PS:大概吃掉20-22G内存作为显存。跟模型文件一样大。
M2Pro+16GRAM,跑14b,直接拉