昨天开发了一个 Ollama 代理服务,源于一个有趣的事情!
昨天,Q群的一位朋友在他的 X99 双路服务器上部署了 Ollama 运行 deepseek r1 的小模型,想要打造全屋 AI 助手。但很快发现了一个问题:模型的思考过程会直接输出,导致智能音箱和手机应用体验极差,开发工具也无法正常使用。
为解决这个问题,我用 Rust 开发了这个高性能代理服务:
核心特性:
-
智能过滤模型思考过程,只保留最终答案
-
全面兼容所有 Ollama 模型
-
全平台支持(Windows/macOS/Linux + Docker)
-
极低资源占用,高性能表现
-
开箱即用,配置灵活
实际应用效果:
-
智能音箱现在可以流畅对话
-
开发工具完美接入
-
手机应用响应自然
-
所有设备都能无缝使用本地大模型
有趣的是,开发完才发现很多开发者都在尝试解决同样的问题。如果你也在寻找类似解决方案,不妨试试这个代理服务。
Windows 二进制下载:
下图是代理服务的效果图和功能演示,部分截图如下: