大模型推理卡4090最合适?

有没有懂ai大模型的大佬,我们公司目前要自己部署大模型进行推理,做上层应用,两张4090跑32b大模型半精度或者int8量化够不够?

2 Likes

推理的话是够的

一般需求够的,不过余欲不怎么足,具体要看目标吞吐量和上下文

和v100比起来呢

1 Like

建议你先租卡试试,这些卡各平台都很容易租得到,测试能满足需求再购入呗

int8有点危险,权重+前向+kv cache在大上下文的时候正好在临界值

建议int4