他来了,他来了本地跑模型他来了

Mac_Jack_Jack · 2024 年2 月 7 日 09:47

第一行: 敬始皇,敬我们逝去的Pandora-next

之前一直在关注AI领域这一方面的信息,AI算是一次革命,今天我推荐的是一条命令快速在本地运行大模型,目前在GitHub超过35.7K start

GitHub项目地址: Ollama

官网地址: ollama官方网站

在本地启动并运行大型语言模型。甚至可以使用你的安卓手机跑本地大模型

先说点废话

MACOS

下载

Windows

即将推出！目前，不过可以通过 WSL2 在 Windows 上安装 Ollama。

Linux 和 WSL2

curl https://ollama.ai/install.sh | sh

手动安装说明

docker

官方Ollama Docker 镜像 ollama/ollama可在 Docker Hub 上获取。

Libraries

快速开始

运行并与Llama 2聊天：

ollama run llama2

模型库

Ollama 支持ollama.ai/library上提供的一系列开源模型

让我比较惊讶的是竟然有qwen(千问)

注意：您应该至少有 8 GB 可用 RAM 来运行 7B 型号，16 GB 来运行 13B 型号，32 GB 来运行 33B 型号。

定制模型

从 GGUF 导入

Ollama 支持在 Modelfile 中导入 GGUF 模型：

创建一个名为的文件Modelfile，其中包含FROM包含要导入模型的本地文件路径的指令。
```
FROM ./vicuna-33b.Q4_0.gguf
```
在 Ollama 中创建模型
```
ollama create example -f Modelfile
```
运行模型
```
ollama run example
```

从 PyTorch 或 Safetensors 导入

有关详细信息，请参阅导入模型指南。

自定义提示

Ollama 库中的模型可以通过提示进行定制。例如，要定制llama2模型：

ollama pull llama2

创建一个Modelfile：

FROM llama2

# set the temperature to 1 [higher is more creative, lower is more coherent]
PARAMETER temperature 1

# set the system message
SYSTEM """
You are Mario from Super Mario Bros. Answer as Mario, the assistant, only.
"""

接下来，创建并运行模型：

ollama create mario -f ./Modelfile
ollama run mario
>>> hi
Hello! It's your friend Mario.

有关更多示例，请参阅示例目录。有关使用模型文件的更多信息，请参阅模型文件文档。

CLI 参考

创建模型

ollama create用于从模型文件创建模型。

ollama create mymodel -f ./Modelfile

拉一个模型

ollama pull llama2

此命令还可用于更新本地模型。只有差异才会被拉出。

删除模型

ollama rm llama2

复制模型

ollama cp llama2 my-llama2

多行输入

对于多行输入，您可以使用以下方式换行文本"""：

>>> """Hello,
... world!
... """
I'm a basic program that prints the famous "Hello, world!" message to the console.

多式联运模型

>>> What's in this image? /Users/jmorgan/Desktop/smile.png
The image features a yellow smiley face, which is likely the central focus of the picture.

传入提示作为参数

$ ollama run llama2 "Summarize this file: $(cat README.md)"
 Ollama is a lightweight, extensible framework for building and running language models on the local machine. It provides a simple API for creating, running, and managing models, as well as a library of pre-built models that can be easily used in a variety of applications.

列出您计算机上的模型

ollama list

开始

ollama serve当您想要启动 ollama 而不运行桌面应用程序时使用。

构建

安装cmake并go：

brew install cmake go

然后生成依赖：

go generate ./...

然后构建二进制文件：

go build .

更详细的说明可以在开发者指南中找到

运行本地构建

接下来，启动服务器：

./ollama serve

最后，在单独的 shell 中运行模型：

./ollama run llama2

废话说完了

看看实际的效果图:

Mac

机器型号: M1芯片 16G

模型: qwen:1.8b

Linux

机器型号: 16C 32G 无显卡

模型: qwen:7b

用中文推荐使用阿里的千问 qwen

对不住兄弟们,我原本以为支持上传视频呢,结果不支持,兄弟们先将就看看,欢迎下面留言,评论

不足之处:

暂时不支持 openai接口协议
涉及到的中文模型较少

不写了,准备过年了兄弟们提前新年快乐!!!

cherry · 2024 年2 月 7 日 10:58

好哇，先收藏，等win出来就试试

zqhsqb · 2024 年2 月 7 日 11:03

+1

996 · 2024 年2 月 8 日 05:14

爱了爱了，先收藏。以后说不定能部署到我的小型RK3588上

yuke · 2024 年2 月 8 日 14:19

利用litellm 配合ollama支持OpenAI接口协议，我之前在公众号文章里讨论过。

放个简单的例子

pip install 'litellm[proxy]'
ollama serve
ollama pull mistral-openorca:7b-fp16
litellm --model ollama/mistral-openorca:7b-fp16

调用方法

import openai
client = openai.OpenAI(api_key="anything",base_url="http://0.0.0.0:8000") 
response = client.chat.completions.create(model="gpt-3.5-turbo", messages = [
    {
        "role": "user",
        "content": "1x1, 1+1和1*1有啥区别"
    }
])

print(response.choices[0].message.content)

Ethan · 2024 年2 月 8 日 14:21

火钳刘明

txj · 2024 年2 月 8 日 14:29

大家先跑，跑顺溜了我再试试

xf67 · 2024 年2 月 8 日 14:57

交大IPADS实验室有一个类似的项目，且支持Windows

Mac_Jack_Jack · 2024 年2 月 9 日 08:02

最新版的ollama官方已经做了openai接口的兼容
qwen1.5也已经做了适配

yuke · 2024 年2 月 9 日 15:51

是否流畅还是取决于自己的电脑，我这边使用还是蛮流畅的，当然超过13B，我的电脑也吃不消了

Keyman · 2024 年2 月 9 日 16:07

这没显卡应该会比较慢把

JIeJaitt · 2024 年2 月 10 日 02:06

感觉这些开源的本地模型甚至都没官网gpt3.5聪明，不知道为什么

Y0254 · 2024 年2 月 19 日 02:09

win出来了，操作指令好详细，网页下载保存了

cnbeining · 2024 年2 月 19 日 02:54

跑个某个任务的还可以肯定不如原版了

yuemanly · 2024 年2 月 19 日 02:56

好东西，回头试试

skyler · 2024 年2 月 19 日 05:05

太硬核了，使我的显卡旋转

Ookuk · 2024 年2 月 19 日 05:44

66

Roulders · 2024 年2 月 19 日 06:18

可以是可以，就是推理的很慢，也可能是硬件不太行，只有16G运存，我想问一下，这个要达到较快的一个程度需要什么样的硬件支持

LYsunshine123 · 2024 年2 月 19 日 06:21

估计硬件不会太低，不然感觉跑起来很费劲

Mac_Jack_Jack · 2024 年2 月 19 日 11:54

如果推理很慢,可能有两点需要注意:

真的是你的硬件条件很差
可能是你选的模型参数较大,还有量化大小
可以参考:

image2060×604 72.9 KB

话题		回复	浏览量
本地copilot! 发现Ollama的Python和JavaScript库，探索令人惊叹的Web项目和强大的IDE插件人工智能 chatgpt , 小工具 , copilot	20	1789	2024 年3 月 12 日
最新版的 OpenAI Translator 已经无缝支持本地大模型高质量翻译人工智能	14	1711	2024 年3 月 5 日
使用Ollama部署属于羊驼3 72B，让自己拥有属于自己的大模型，小白教材人工智能 chatgpt , openai	13	1054	2024 年5 月 11 日
3分钟，拥有你的本地大模型-Ollama！【Windows篇小白向】人工智能	70	3974	2024 年7 月 23 日
ollama 使用技巧集锦人工智能	21	1829	2024 年7 月 8 日

他来了,他来了 本地跑模型他来了