今天开工第一天, 在公司本地部署了一个 DeepSeek-R1-Distill-Qwen-32B-GGUF, 用着挺好, 沟通也还比较顺畅,唯独就是不能联网,暂还没有找到好的解决办法
晚上回来后看电脑能部署 70B的,就部署了一个 DeepSeek-R1-Distill-Llama-70B-GGUF,结果我问个问题,这货在一个字一个字的往外蹦。。。 5分钟了还在蹦
ps: 公司是一个 Mac studio,32G内存, 家里是自组的Win 64G内存 + 4060的16G显卡
今天开工第一天, 在公司本地部署了一个 DeepSeek-R1-Distill-Qwen-32B-GGUF, 用着挺好, 沟通也还比较顺畅,唯独就是不能联网,暂还没有找到好的解决办法
晚上回来后看电脑能部署 70B的,就部署了一个 DeepSeek-R1-Distill-Llama-70B-GGUF,结果我问个问题,这货在一个字一个字的往外蹦。。。 5分钟了还在蹦
ps: 公司是一个 Mac studio,32G内存, 家里是自组的Win 64G内存 + 4060的16G显卡
因为你自己家里16G显存搞不起70B的ollama,所以在用cpu+内存推理呢
太大了(
这是在用CPU和内存慢慢跑(
我没安装ollama, 用的 LM studio
70B对于16G显存还是太大了w
好吧 那我卸载掉 换32B试试
ollama可以设置把一部分权重放在gpu上,会快不少
佬可以试试看装个nvitop,看看推理的时候cpu、gpu、mem、vram到底都占用了多少。
好的 谢谢佬 我看下
很难评价,哪里说的能70b
好像 LM 也可以设置 , 等会试试
70b卡了正常
部署32B也是几个字几个字往外蹦,因为你显存就16G,部署14B才可能秒答
卸载了, 显存不够,再也不玩那么大模型了
4060能跑8b模型就不得了了,你这超的太多了
换了32B 确实比70B的快一些了, 等会把32B的也卸载了
嗯嗯 学乖了 再也不折腾那么大的了
14B 妥妥的,8B性能富余
想要智商能用,用32B也行
可以和公司的组个虚拟局域网,然后在你家调用,不需要在你家电脑上还搞个