他来了,他来了 本地跑模型他来了

第一行: 敬始皇,敬我们逝去的Pandora-next

之前一直在关注AI领域这一方面的信息,AI算是一次革命,今天我推荐的是一条命令快速在本地运行大模型,目前在GitHub超过35.7K start

GitHub项目地址: Ollama

官网地址: ollama官方网站

在本地启动并运行大型语言模型。甚至可以使用你的安卓手机跑本地大模型

先说点废话

MACOS

下载

Windows

即将推出!目前,不过可以通过 WSL2 在 Windows 上安装 Ollama。

Linux 和 WSL2

curl https://ollama.ai/install.sh | sh

手动安装说明

docker

官方Ollama Docker 镜像 ollama/ollama可在 Docker Hub 上获取。

Libraries

快速开始

运行并与Llama 2聊天:

ollama run llama2

模型库

Ollama 支持ollama.ai/library上提供的一系列开源模型

让我比较惊讶的是竟然有qwen(千问)

注意:您应该至少有 8 GB 可用 RAM 来运行 7B 型号,16 GB 来运行 13B 型号,32 GB 来运行 33B 型号。

定制模型

从 GGUF 导入

Ollama 支持在 Modelfile 中导入 GGUF 模型:

  1. 创建一个名为 的文件Modelfile,其中包含FROM包含要导入模型的本地文件路径的指令。

    FROM ./vicuna-33b.Q4_0.gguf
    
  2. 在 Ollama 中创建模型

    ollama create example -f Modelfile
    
  3. 运行模型

    ollama run example
    

从 PyTorch 或 Safetensors 导入

有关详细信息,请参阅导入模型指南。

自定义提示

Ollama 库中的模型可以通过提示进行定制。例如,要定制llama2模型:

ollama pull llama2

创建一个Modelfile

FROM llama2

# set the temperature to 1 [higher is more creative, lower is more coherent]
PARAMETER temperature 1

# set the system message
SYSTEM """
You are Mario from Super Mario Bros. Answer as Mario, the assistant, only.
"""

接下来,创建并运行模型:

ollama create mario -f ./Modelfile
ollama run mario
>>> hi
Hello! It's your friend Mario.

有关更多示例,请参阅示例目录。有关使用模型文件的更多信息,请参阅模型文件文档。

CLI 参考

创建模型

ollama create用于从模型文件创建模型。

ollama create mymodel -f ./Modelfile

拉一个模型

ollama pull llama2

此命令还可用于更新本地模型。只有差异才会被拉出。

删除模型

ollama rm llama2

复制模型

ollama cp llama2 my-llama2

多行输入

对于多行输入,您可以使用以下方式换行文本"""

>>> """Hello,
... world!
... """
I'm a basic program that prints the famous "Hello, world!" message to the console.

多式联运模型

>>> What's in this image? /Users/jmorgan/Desktop/smile.png
The image features a yellow smiley face, which is likely the central focus of the picture.

传入提示作为参数

$ ollama run llama2 "Summarize this file: $(cat README.md)"
 Ollama is a lightweight, extensible framework for building and running language models on the local machine. It provides a simple API for creating, running, and managing models, as well as a library of pre-built models that can be easily used in a variety of applications.

列出您计算机上的模型

ollama list

开始

ollama serve当您想要启动 ollama 而不运行桌面应用程序时使用。

构建

安装cmakego

brew install cmake go

然后生成依赖:

go generate ./...

然后构建二进制文件:

go build .

更详细的说明可以在开发者指南中找到

运行本地构建

接下来,启动服务器:

./ollama serve

最后,在单独的 shell 中运行模型:

./ollama run llama2

废话说完了

看看实际的效果图:

Mac

机器型号: M1芯片 16G

模型: qwen:1.8b

Linux

机器型号: 16C 32G 无显卡

模型: qwen:7b

用中文推荐使用 阿里的千问 qwen

对不住兄弟们,我原本以为支持上传视频呢,结果不支持,兄弟们先将就看看,欢迎下面留言,评论

不足之处:

  1. 暂时不支持 openai接口协议
  2. 涉及到的中文模型较少

不写了,准备过年了 兄弟们提前新年快乐!!!

13 Likes

好哇,先收藏,等win出来就试试

+1

爱了爱了,先收藏。以后说不定能部署到我的小型RK3588上

利用litellm 配合ollama支持OpenAI接口协议,我之前在公众号文章里讨论过。

放个简单的例子

pip install 'litellm[proxy]'
ollama serve
ollama pull mistral-openorca:7b-fp16
litellm --model ollama/mistral-openorca:7b-fp16

调用方法

import openai
client = openai.OpenAI(api_key="anything",base_url="http://0.0.0.0:8000") 
response = client.chat.completions.create(model="gpt-3.5-turbo", messages = [
    {
        "role": "user",
        "content": "1x1, 1+1和1*1有啥区别"
    }
])

print(response.choices[0].message.content)

3 Likes

火钳刘明

大家先跑,跑顺溜了我再试试

交大IPADS实验室有一个类似的项目,且支持Windows

:grinning:
最新版的ollama官方已经做了openai接口的兼容
qwen1.5也已经做了适配

是否流畅还是取决于自己的电脑,我这边使用还是蛮流畅的,当然超过13B,我的电脑也吃不消了

这没显卡应该会比较慢把

感觉这些开源的本地模型甚至都没官网gpt3.5聪明,不知道为什么

win出来了,操作指令好详细,网页下载保存了 :sweat_smile:

跑个某个任务的还可以 肯定不如原版了

好东西,回头试试

太硬核了,使我的显卡旋转

66

可以是可以,就是推理的很慢,也可能是硬件不太行,只有16G运存,我想问一下,这个要达到较快的一个程度需要什么样的硬件支持

估计硬件不会太低,不然感觉跑起来很费劲

如果推理很慢,可能有两点需要注意:

  1. 真的是你的硬件条件很差
  2. 可能是你选的模型参数较大,还有量化大小
    可以参考: