模型的迭代跟部署工程的迭代是两码事。部署技术可以推广到所有模型上,二者并不冲突。
这个事情并不是没有意义的,可以看看业界实现,比如 exo labs 的研究。
exo lab 研究方向比这个靠谱
个人买有点贵了。公司买,Token又跟不上。。
部署qwq-32B 是不是性能会更好一些
Q:这套方案除了 DeepSeek-R1,是否也可以用于 DeepSeek-V3?
A:是的,这套方案也可用于 DeepSeek-V3。理论上参数量小于等于 DeepSeek-R1 规模的 MoE 模型都可以。
各有优缺点,exo 的基于 mac,相对来说成本更高。但是因为硬件统一,所以可靠性比较好。
个人部署综合成本还是不低
我这纯CPU跑的ollama也有5tokens/秒呢啊,可这有什么意义吗?自娱自乐是可以的,但是不具备任何上生产环境的条件啊。