有没有懂ai大模型的大佬,我们公司目前要自己部署大模型进行推理,做上层应用,两张4090跑32b大模型半精度或者int8量化够不够?
2 Likes
推理的话是够的
一般需求够的,不过余欲不怎么足,具体要看目标吞吐量和上下文
和v100比起来呢
1 Like
建议你先租卡试试,这些卡各平台都很容易租得到,测试能满足需求再购入呗
int8有点危险,权重+前向+kv cache在大上下文的时候正好在临界值
建议int4