求助大模型本地部署(自动装载卸载,类型多样)

本地部署大模型,后端服务器调研ollama,vllm,xinference。本地主机为nvidia3090 24g版本,主要使用方式为团队知识库,面临的问题主要有:

  1. ollama可以实现模型自动装载卸载,但是目前不支持rerank模型,即使导入显示也判断为 embed类型。推理性能较差
  2. vllm 和xinference 不支持模型自动装载卸载,模型持续占用较大,但是推理速度快。另外实现系统自动启动的难度较大。

目前的方案是 vllm多个模型运行在不同端口,前面在套一个fastapi,根据模型id实现转发。
咨询佬友,有没有能够实现模型自动装载,部署容易,支持类型多样(重排,嵌入等)的部署框架或者教程。

9 Likes

这需求应该只有 Ollama 支持,重排用 TEI 单独起一个,其实,最大的问题是, Ollama 的性能有点差劲

1 Like

老哥我跟你需求差不多,但是我现在是用的xinference的,没法自动装载

1 Like

ollama 根本不能支撑企业级的并发,建议直接上vllm

1 Like

目前还没定,vllm的问题就在于是持久占用内存,不能根据需要自动装载卸载模型

都部署了,还要频繁装载卸载更换吗?线上环境咋整

内网部署,目前测试结果来看的话ollama接收到相应的请求,如果没有装载会自动装载运行。

现在的解决方法是vllm 多端口运行,然后前面套一个fastapi根据请求进行转发。

频繁装载卸载模型就不是企业级的需求。要不vllm和xin为啥不做呢?对于生产应用来说,一个模型装载以后就一直提供服务了。

装载模型确实不是,但是统一端口提供服务按理说是很正常的需求。 vllm官网文档已经说明这个问题,单实例单模型单端口,但是xinference还是支持的,单实例多模型多端口。

你的这个需求,可以用一个 one-api 或者 new-api 解决

这个是不可以吧,只是一个中转工具,没法实现模型的装载卸载的吧

我的意思是统一端口,可以多实例单端口

这个我已经有临时工具替代实现了