想请教一下各位佬,公司想部署一个本地的AI大模型有哪些可以选型吗?

我在公司里面是搞实施的,目前高层有个需求就是看能不能部署一些开源的大模型(或者买openai?),还需要有对话机器人,能接入微信或者钉钉,还要能导入文件或者连接数据库,能做到一些知识库的功能。
有开源或者付费的平台介绍吗?

32 Likes

可以部署一个xinference平台来提供开源大模型的api,然后用dify的工作流来实现导入文件和连接数据库,连接数据库可能没有现成的工具,要自己用网络请求实现。dify这个做出来我记得是有个网页前端的,然后应该也可以用api调用,有api的话再用钉钉的机器人应该没什么问题。

4 Likes

开源的话应该就是 deepseek qwen 二选一了,接入微信有被封的风险,钉钉、飞书都有官方机器人,对接比较容易

2 Likes

xinference应该就是提供模型和API吧?然后dify好像社区版对于公司的可能还不够用

是的,xinference可以加载开源模型,提供API,dify不够用的话,langchain的自由度更强一些

如果deepseek的开源模型,使用ollama部署,然后可以再选择一些知识库的项目 比如maxkb 啥的,如果对话的话可以部署个open webui 对ollama支持应该还可以

建议最好是直接上 openai, 自己部署成本太高, 开源模型比如 qwen, 想要好就得微调 72b, 费时费力, 现在刚好 openai 外面 az api 便宜的要死, 哪怕直接输入文档啥的都没问题. 建议 openai 4o + dify workflow, 输出的 API 做一个导航站给他们用. 想要普通聊天的就 open webui

1 Like

那dify不是还是要钱吗?社区版够用了?

dify好像也挺贵的。

好的,但是哪种平台可以接入api之余还能接自己的数据库?

1 Like

打算qwen+one api接入dify去做,但是就是不清楚dify的社区版是否够用了

算力够的话上Qwen-72B,算力有限就14B量化版本,或者GLM4吧,
Qwen-7B的模型在知识库效果理解比GLM同等模型较弱,尤其是数据召回质量较差的场景尤为明显

72b大概要啥配置比较好,哪个网站能查询这些东西,佬

144GB显存吧,两块A100

INT4也得50GB左右显存

14B 量化版(直接Ollama拉镜像就好)的 24GB显存足够了,一块4090

我们公司是fastgpt接one-api接xinference

maxkb关注一下

阿里有个开源的数据库管理工具带AI
然后向量脉络可以看一下,不知道是否符合需求,有开源版本

呐,这就是专业

考虑硅基啊 还便宜

公司现在最多给我配一张4060 :smiling_face_with_tear:

1 Like