哦谢谢佬,我先了解一下
想尽量不花钱,除了硬件之外
就是fastgpt作为平台,xinference提供模型,oneapi来作为api管理模型?其实我也搞不懂为什么还要另外接one api,我可能也不会接外部的openai和claude的话。
Ollama运行本地模型,可以直接配置OpenAI兼容的接口地址,就不需要 one api 了
后面就直接dify接入ollama就好了吗?由ollama来管理外部token和本地模型?
Ollama没有Token校验的,所以也没有管理外部token一说,也无法接入第三方的API,只是运行本地模型而已
dify好像官方直接支持Ollama接入,fastgpt需要配置下
我现在的方案是 Ollama运行的 Qwen 本地模型,Poe转的OpenAI API的第三方模型,官方OpenAI的API接口
三类模型统一有 new-api 平台管理,接入到fastgpt平台
这样搭建好了之后,后面业务全部从fastgpt平台出口,比如chat对话,文本分类之类的场景全部都是使用的fastgpt平台的API
dify+ollama可以,dify接口拿去二次开发基本能满足通用场景,知识库问答啥的都有
千问不错的 你的显卡应该能跑 7 或 13B
dify 自建啊 随便找个服务器 docker 丢上就行 谁用他们的 saas 啊
vllm,直接用qwen2.5,感觉挺好用的,部署也简单。
用dify,本地部署一下,连接openai使用
我自己试的qwen2.5b:32b int4 要22G显存,一张v100可以做到40 token/s。用ollama部署的
怎么感觉跟我们公司这么像。我们已经做出来了,弄了个玩具、机器人的对话模组,也弄了类似知识库的东西,可以写政府文件、通知、论文等(面向政府)。用的是阿里的通义千问开源版。
差不多,可能后续需要接token或者本地数据库
new-api和one-api应该是同一类东西吧?
好的好的,等机器下来我试试
我可能最多就一张4060
只有一张4060的话还是建议使用商业在线大模型,智谱、DS的价格都挺低的,4060ti好歹还有16G,可以上14b左右的int4模型,大模型参数差异导致的性能差异还是挺明显的。
我这是多张v100来轮训使用提高token吞吐量的
如果要对外提供服务的话要注意大模型的国内备案,openai什么的就别用了
好的,谢谢提醒