【教程】通过 Ollama 部署与应用 DeepScaleR-1.5B-Preview 模型（基于DeepSeek-R1-Distilled-Qwen-1.5B 微调）的全流程指南

yeahhe · 2025 年2 月 14 日 15:44

部署 DeepScaleR-1.5B-Preview 模型的步骤如下：

1. 安装 Ollama 工具

确保你已安装 Ollama 工具，并正确配置了环境。

2. 选择合适的模型版本

该模型有多个版本，主要区别在于内存占用和硬件要求：

默认 fp16 版本：
使用命令：
```
ollama run deepscaler
```
默认 fp16 版本1161×754 46.6 KB

默认 fp16 版本截图1281×304 83 KB

该版本占用约 3.6GB 内存，适合硬件配置较好的设备。
量化版本：
如果设备性能不足，建议使用量化版本，内存占用更低：
- ollama run deepscaler:1.5b-preview-q8_0，占用约 1.9GB 内存
- ollama run deepscaler:1.5b-preview-q4_K_M，占用约 1.1GB 内存

3. 部署命令说明

运行相应命令后，Ollama 会自动拉取并部署对应版本的模型。部署后，你就可以利用该模型进行推理任务了。

4. 模型特点概述

微调基础：该模型是基于 DeepSeek-R1-Distilled-Qwen-1.5B 进行微调的版本。
分布式强化学习：采用了分布式强化学习（RL）技术，可扩展到更长的上下文长度。
性能优势：在 AIME 2024 评测中，Pass@1 准确率达到 43.1%，相比基础模型的 28.8% 提升了 15%，仅 1.5B 参数的模型性能已超越 OpenAI 的 O1-Preview。

按照以上步骤操作，即可部署并开始使用 DeepScaleR 模型。

部署成功后的使用方式

部署成功后，你可以通过以下方式来使用这个模型：

1. 命令行交互

使用命令行直接启动模型，例如：

如果使用默认的 fp16 版本，可执行：
```
ollama run deepscaler
```

如果设备性能有限，建议使用量化版本：

ollama run deepscaler:1.5b-preview-q8_0

或者：

ollama run deepscaler:1.5b-preview-q4_K_M

启动后，终端会进入对话模式，你只需输入问题或指令，模型会根据提示返回回答。

2. API 集成

Ollama 提供 REST API 接口，你可以将模型集成到你的应用中。例如，可以使用 curl 命令向本地服务发送请求：

curl http://localhost:11434/api/chat -d '{
  "model": "deepscaler",
  "messages": [{"role": "user", "content": "请问今天的天气如何？"}]
}'

这样你就可以在自己的系统或前端界面中调用模型，实现自动化对话和其它任务。

3. 图形界面工具

除了命令行交互，你还可以结合第三方前端工具（如 Ollama 的 WebUI、AnythingLLM 或者 Open WebUI 等）来获得更友好的交互界面。只需确保你的服务已经启动（例如执行 ollama serve），然后通过这些工具连接到本地模型，即可享受类似 ChatGPT 的使用体验。

这些方式可以根据你的具体需求灵活选择。

如何解决英伟达 GPU 无法调用的问题？

安装驱动和 CUDA 工具

安装后重启，并通过 PowerShell 输入以下命令检查 CUDA 安装是否成功：

nvcc --version

实践测试

在语言模型输出时，CPU 占用率明显减少，语言模型输出速度明显提升，GPU 温度持续提升，表示已成功调用 GPU，但 GPU 占用率未显示。

建议使用 nvitop 来查看 GPU 占用

建议使用 pip 安装（也可通过 pipx、conda 或从 GitHub 拉取最新版本安装）：

pip install nvitop

安装完成后，如果提示找不到命令，请检查 Python 脚本目录是否已添加到 PATH 中，或者直接使用：

python3 -m nvitop

Ollama命令行指令

设置会话变量

/set：设置会话变量。

加载或保存模型

/load <model>：加载会话或模型。
/save <model>：保存当前会话。

管理会话

/show：显示模型信息。
/clear：清除会话上下文。

退出

/bye：退出。

帮助

/? 或 /help：显示命令帮助。
/? shortcuts：显示键盘快捷键帮助。

yeahhe · 2025 年2 月 14 日 15:49

还是可以接受的

yeahhe · 2025 年2 月 14 日 15:50

好像没有调用GPU

yeahhe · 2025 年2 月 14 日 15:54

@F-droid 你对ollama熟悉，来优化一下教程

F-droid · 2025 年2 月 14 日 15:57

整一下Open WebUI，支持OpenAI兼容接口(v1/models和v1/chat/complements)

yeahhe · 2025 年2 月 14 日 15:58

我说的是GPU没用到

yeahhe · 2025 年2 月 14 日 15:59

是不是fp16 不能用这个显卡

F-droid · 2025 年2 月 14 日 15:59

CDUA没装好？

cursor · 2025 年2 月 14 日 16:01

1.5b就能达到o1-preview水平啦佬？
7b呢？
手头有个12GB显存的3060 ，不知道能不能搞搞

yeahhe · 2025 年2 月 14 日 16:01

好像是没加管理员权限

yeahhe · 2025 年2 月 14 日 16:01

我8代i7纯cpu都跑出来了

F-droid · 2025 年2 月 14 日 16:02

你自己调试调试

yeahhe · 2025 年2 月 14 日 16:03

只有cpu在输出，GPU和核显都在摸鱼

OYeah · 2025 年2 月 14 日 16:05

收藏备用，谢谢

F-droid · 2025 年2 月 14 日 16:05

我用A100直接健步如飞

yeahhe · 2025 年2 月 14 日 16:05

纯cpu速度也还行

yeahhe · 2025 年2 月 14 日 16:05

佬哪搞来的，自己的还是公司的

F-droid · 2025 年2 月 14 日 16:05

海鲜市场捡垃圾捡的

yeahhe · 2025 年2 月 14 日 16:06

？？？你别唬我

F-droid · 2025 年2 月 14 日 16:07

话题		回复	浏览量
本地安装部署图形化界面Deepseek模型（2060显卡可运行的），较稳定不易运行出错，目前有什么方式吗？开发调优人工智能 , 快问快答	83	790	2025 年2 月 1 日
10年前的笔记本跑deepseek-r1 7b 开发调优人工智能	46	1477	2025 年1 月 30 日
今天买了台新PC，本地部署了Open WebUI+Ollama 搞七捻三 ollama , 人工智能 , OpenWebUI , 纯水	107	2427	2025 年1 月 30 日
671b， deepseek-r1 一会跑起来试试，是不是有佬友已经爽过了搞七捻三纯水	56	3153	2025 年2 月 20 日
DeepSeek 新手上路 (二) 模型自部署文档共建人工智能	50	2196	2025 年2 月 19 日