公司预算20-50w,有佬知道可以部署什么本地部署大模型?

公司派个艰巨的任务,让我去了解本地大模型,奈何我是一个java boy,无从下手,有佬知道这个预算可以做什么吗?我自己现在在公司内搭建了Fastgpt测试了一下,现在调用的第三方大模型的API,不知道本地会不会就达不到想要的效果,太头壳疼了。 :sob:

7 Likes

搞个小尺寸蒸馏的凑活用吧,还能咋

1 Like

先讨论必须要私有化部署吗

然后50w的话,4090+600G内存倒是可以跑ktransformers,但是不支持多并发。4090可以跑量化版的7b-14b,看你怎么弄了,我是用xinference搞的

必须要私有化部署吗,API不香吗 :tieba_087:

1 Like

大概1000人使用

公司数据安全问题,一直都拒绝数据对外发的。领导主要也思考这一点

公司用至少跑个70b模型吧

2 Likes

可以2080Ti 22G x4, 用KTransformer 或者unsloth。
更具体可以B站搜 九天hector(方案还挺齐全的)

千人用的话,那就不要搞ktransformer了,是文书工作还是代码工作?

文书工作我弄了个A800+Qwen72b-AWQ量化,还有个A800+DS-Distill-Llama-70B(没去审查)都接在知识库里做写作助手了,够用

显存占用截图在这里,顺序上Qwen下DS

3 Likes

联网问问DS,我感觉要支持1000人的规模,这个钱有点难,那么模型就很弱了,又很鸡肋了感觉,如果还要上传文档,就裂开了

公司应该文书工作居多,代码的就10几个人。佬部署的这一套方案成本大概大多?token吐字快不快呀?

单卡方案的话,人少的时候60-80tokens/s,人多的时候能保证12+tokens/s,我这也是文书工作的多,不过没有1000人,所以你只能参考下

价格等我找找当时的单子再告诉你吧

671b 满血包的
就是速度比较慢,并发等于没有

得估计一下并发,1000个人不太可能同时用的,这么多人给20-50的预算,算了吧,别最后成了你的锅。
可以先让他们用商家的API体验一段时间,不过注意额度,如果大家都觉得好用,那预算应该能加,但是估计也到不了那么人用的程度,
DELL给的方案报价,R1满血版,百来个人的方案是两台 H20 96G * 8 ,加交换机什么的就要两百多万了。

20拿出来给大家分。然后套api,大家别说。 :grinning:

3 Likes

并发大概也估计20-100之间吧,这个也说不准。

可刑啊啊

1 Like

如果预算真就不给加了,那就让他们用32B和70B的API,体验一下,能接受再去部署32B或70B,
就我遇到的人来说,不是一定要满血的,我有一个同事,写代码的,他就一直觉得32B够用了。

可以的。感谢佬

70b感觉绰绰有余

这个真有判头

1 Like