想请教一下各位佬，公司想部署一个本地的AI大模型有哪些可以选型吗？

truetrue · 2024 年10 月 9 日 01:08

哦谢谢佬，我先了解一下

truetrue · 2024 年10 月 9 日 01:08

想尽量不花钱，除了硬件之外

truetrue · 2024 年10 月 9 日 01:11

就是fastgpt作为平台，xinference提供模型，oneapi来作为api管理模型？其实我也搞不懂为什么还要另外接one api，我可能也不会接外部的openai和claude的话。

llllllll · 2024 年10 月 9 日 01:18

Ollama运行本地模型，可以直接配置OpenAI兼容的接口地址，就不需要 one api 了

truetrue · 2024 年10 月 9 日 01:19

后面就直接dify接入ollama就好了吗？由ollama来管理外部token和本地模型？

llllllll · 2024 年10 月 9 日 01:22

Ollama没有Token校验的，所以也没有管理外部token一说，也无法接入第三方的API，只是运行本地模型而已

dify好像官方直接支持Ollama接入，fastgpt需要配置下

llllllll · 2024 年10 月 9 日 01:26

我现在的方案是 Ollama运行的 Qwen 本地模型，Poe转的OpenAI API的第三方模型，官方OpenAI的API接口
三类模型统一有 new-api 平台管理，接入到fastgpt平台

这样搭建好了之后，后面业务全部从fastgpt平台出口，比如chat对话，文本分类之类的场景全部都是使用的fastgpt平台的API

aepax · 2024 年10 月 9 日 01:26

dify+ollama可以,dify接口拿去二次开发基本能满足通用场景,知识库问答啥的都有

Das · 2024 年10 月 9 日 01:55

千问不错的你的显卡应该能跑 7 或 13B

purr · 2024 年10 月 9 日 01:58

dify 自建啊随便找个服务器 docker 丢上就行谁用他们的 saas 啊

Mrzqd · 2024 年10 月 9 日 02:01

vllm,直接用qwen2.5,感觉挺好用的，部署也简单。

xk2024 · 2024 年10 月 9 日 02:03

用dify，本地部署一下，连接openai使用

image · 2024 年10 月 9 日 02:09

我自己试的qwen2.5b:32b int4 要22G显存，一张v100可以做到40 token/s。用ollama部署的

wvw · 2024 年10 月 9 日 02:20

怎么感觉跟我们公司这么像。我们已经做出来了，弄了个玩具、机器人的对话模组，也弄了类似知识库的东西，可以写政府文件、通知、论文等（面向政府）。用的是阿里的通义千问开源版。

truetrue · 2024 年10 月 9 日 03:35

差不多，可能后续需要接token或者本地数据库

truetrue · 2024 年10 月 9 日 03:36

new-api和one-api应该是同一类东西吧？

truetrue · 2024 年10 月 9 日 03:36

好的好的，等机器下来我试试

truetrue · 2024 年10 月 9 日 03:36

我可能最多就一张4060

image · 2024 年10 月 9 日 03:50

只有一张4060的话还是建议使用商业在线大模型，智谱、DS的价格都挺低的，4060ti好歹还有16G，可以上14b左右的int4模型，大模型参数差异导致的性能差异还是挺明显的。

我这是多张v100来轮训使用提高token吞吐量的

如果要对外提供服务的话要注意大模型的国内备案，openai什么的就别用了

truetrue · 2024 年10 月 9 日 05:39

好的，谢谢提醒

话题		回复	浏览量
各位佬现在的模型都不能烧聊了吗？搞七捻三 ChatGPT , OpenAI , 人工智能 , 快问快答	18	693	2024 年12 月 22 日
本地部署大语言模型玩AI角色扮演哪家强? 开发调优人工智能 , 快问快答	35	1614	2024 年11 月 2 日
想在服务器部署开源模型开发调优 ChatGPT , 人工智能 , 职场 , 快问快答	9	618	2024 年11 月 30 日
像chatGPT这样的大模型有免费使用的版本吗搞七捻三 OpenAI , 人工智能 , 快问快答	12	367	2024 年11 月 11 日
【求教-已找到最佳方案】多人/团队 Open AI API食用指南资源荟萃 ChatGPT , OpenAI , 人工智能 , 快问快答	19	513	2024 年12 月 2 日