想请教一下各位佬,公司想部署一个本地的AI大模型有哪些可以选型吗?

哦谢谢佬,我先了解一下

想尽量不花钱,除了硬件之外

就是fastgpt作为平台,xinference提供模型,oneapi来作为api管理模型?其实我也搞不懂为什么还要另外接one api,我可能也不会接外部的openai和claude的话。

Ollama运行本地模型,可以直接配置OpenAI兼容的接口地址,就不需要 one api 了

后面就直接dify接入ollama就好了吗?由ollama来管理外部token和本地模型?

Ollama没有Token校验的,所以也没有管理外部token一说,也无法接入第三方的API,只是运行本地模型而已

dify好像官方直接支持Ollama接入,fastgpt需要配置下

我现在的方案是 Ollama运行的 Qwen 本地模型,Poe转的OpenAI API的第三方模型,官方OpenAI的API接口
三类模型统一有 new-api 平台管理,接入到fastgpt平台

这样搭建好了之后,后面业务全部从fastgpt平台出口,比如chat对话,文本分类之类的场景全部都是使用的fastgpt平台的API

dify+ollama可以,dify接口拿去二次开发基本能满足通用场景,知识库问答啥的都有

千问不错的 你的显卡应该能跑 7 或 13B

dify 自建啊 随便找个服务器 docker 丢上就行 谁用他们的 saas 啊

vllm,直接用qwen2.5,感觉挺好用的,部署也简单。

用dify,本地部署一下,连接openai使用

我自己试的qwen2.5b:32b int4 要22G显存,一张v100可以做到40 token/s。用ollama部署的

怎么感觉跟我们公司这么像。我们已经做出来了,弄了个玩具、机器人的对话模组,也弄了类似知识库的东西,可以写政府文件、通知、论文等(面向政府)。用的是阿里的通义千问开源版。

差不多,可能后续需要接token或者本地数据库

new-api和one-api应该是同一类东西吧?

好的好的,等机器下来我试试

我可能最多就一张4060

只有一张4060的话还是建议使用商业在线大模型,智谱、DS的价格都挺低的,4060ti好歹还有16G,可以上14b左右的int4模型,大模型参数差异导致的性能差异还是挺明显的。

我这是多张v100来轮训使用提高token吞吐量的

如果要对外提供服务的话要注意大模型的国内备案,openai什么的就别用了

3 个赞

好的,谢谢提醒