本地部署的两个模型,为啥差别这么大?

今天开工第一天, 在公司本地部署了一个 DeepSeek-R1-Distill-Qwen-32B-GGUF, 用着挺好, 沟通也还比较顺畅,唯独就是不能联网,暂还没有找到好的解决办法

晚上回来后看电脑能部署 70B的,就部署了一个 DeepSeek-R1-Distill-Llama-70B-GGUF,结果我问个问题,这货在一个字一个字的往外蹦。。。 :see_no_evil: 5分钟了还在蹦

ps: 公司是一个 Mac studio,32G内存, 家里是自组的Win 64G内存 + 4060的16G显卡

5 Likes

因为你自己家里16G显存搞不起70B的ollama,所以在用cpu+内存推理呢:smile:

4 Likes

太大了(
这是在用CPU和内存慢慢跑(

我没安装ollama, 用的 LM studio

70B对于16G显存还是太大了w

好吧 那我卸载掉 换32B试试

ollama可以设置把一部分权重放在gpu上,会快不少

佬可以试试看装个nvitop,看看推理的时候cpu、gpu、mem、vram到底都占用了多少。

1 Like

好的 谢谢佬 我看下

很难评价,哪里说的能70b


好像 LM 也可以设置 , 等会试试

70b卡了正常

部署32B也是几个字几个字往外蹦,因为你显存就16G,部署14B才可能秒答

卸载了, 显存不够,再也不玩那么大模型了

4060能跑8b模型就不得了了,你这超的太多了

换了32B 确实比70B的快一些了, 等会把32B的也卸载了

嗯嗯 学乖了 再也不折腾那么大的了 :joy:

14B 妥妥的,8B性能富余

想要智商能用,用32B也行

可以和公司的组个虚拟局域网,然后在你家调用,不需要在你家电脑上还搞个