Ollama 官网:https://github.com/ollama/ollama
Ollama是一个开源的人工智能(AI)和机器学习(ML)工具平台,特别设计用于简化大型语言模型(LLM)的部署和使用流程。用户可以通过Ollama在本地环境中便捷地运行各种大型语言模型,比如Llama 2和其他开源模型。该工具的主要优势和特点包括:
- 易用性:提供了类似于OpenAI API的简单接口,用户可以快速上手并调用模型进行内容生成,同时也包含一个类似ChatGPT的聊天界面,可以直接与模型进行交互。
- 跨平台支持:支持macOS、Linux 和 Windows 操作系统,让用户能够在不同平台上本地运行大型语言模型。
- 模型管理和部署:Ollama将模型权重、配置和数据整合在一个名为Modelfile的包中,通过优化的Docker容器化技术,用户只需一条命令就能在本地部署和管理LLM。支持热切换模型,灵活多变。
- 高效性:它显著降低了使用大型语言模型所需的硬件配置和技术门槛,使更多的开发者和研究者能够迅速获得和使用高级AI技术。
- 灵活性:除了支持预训练模型外,Ollama还允许用户自定义和创建自己的模型。
总结来说,Ollama是一个旨在促进AI民主化的工具,通过简化部署和使用流程,让更多人能够在个人计算机上运行复杂的大型语言模型,从而推进AI技术的广泛普及和创新应用。
2.1 安装
官方文档:https://github.com/ollama/ollama/blob/main/docs/linux.md
在Ollama安装完成后, 一般会自动启动 Ollama 服务,而且会自动设置为开机自启动。安装完成后,可以使用如下命令查看是否Ollama是否正常启动。如下例子中显示“Active: active (running)”表示Ollama已经正常启动。
在 Linux 上,如果 Ollama 未启动,可以用如下命令启动 Ollama 服务:ollama serve,或者 sudo systemctl start ollama。
通过分析Linux的安装脚本install.sh,就会看到其中已经将ollama serve配置为一个系统服务,所以可以使用systemctl来 start / stop ollama 进程。
2.2 启动
2.3 更新
Update ollama by running the install script again:
Or by downloading the ollama binary:
2.4 查看日志
Ollama默认绑定127.0.0.1端口11434。通过 环境变量更改绑定地址。
3.1 在linux 上设置环境变量
如果Ollama作为systemd服务运行,应该使用 设置环境变量:
- 通过调用 编辑systemd服务。这将打开一个编辑器。或者创建 配置文件。
- 对于每个环境变量,在 部分下添加一行:复制
- 保存并退出。
- 重载 并重启Ollama:复制
3.2 在 Windows 上设置环境变量
在Windows上,Ollama继承了您的用户和系统环境变量。
- 首先通过任务栏点击Ollama退出程序
- 从控制面板编辑系统环境变量
- 为您的用户账户编辑或新建变量,比如、等。
- 点击OK/应用保存
- 重启 ollama app.exe 服务
4.1 模型库
模型仓库地址: https://ollama.com/library
Ollama 是一个基于 Go 语言开发的简单易用的本地大模型运行框架。可以将其类比为 docker , ollama 安装之后,其同时还是一个命令,与模型交互就是通过命令来进行的。
- ollama list:显示模型列表。
- ollama show:显示模型的信息
- ollama pull:拉取模型
- ollama push:推送模型
- ollama cp:拷贝一个模型
- ollama rm:删除一个模型
- ollama run:运行一个模型
同时,官方还提供了类似 GitHub,DockerHub 一般的,可类比理解为 ModelHub,用于存放大模型的仓库(有 llama 2,mistral,qwen 等模型,同时你也可以自定义模型上传到仓库里来给别人使用)。
Here are some example models that can be downloaded:
官方建议:应该至少有 8 GB 可用 RAM 来运行 7B 型号,16 GB 来运行 13B 型号,32 GB 来运行 33 B 型号
4.2 运行模型
下载并运行模型
等待下载完成后,你就可以直接在终端中与大模型进行对话了。如此简单你就拥有了一个属于你自己私人的chatAI。
如果本地没有该模型,则会先下载模型再运行。首次运行启动可能略慢。
再次查看本地模型库:
4.3 指定 GPU
本地有多张 GPU,如何用指定的 GPU 来运行 Ollama?
在Linux上创建如下配置文件,并配置环境变量 来指定运行 Ollama 的 GPU,再重启 Ollama 服务即可。
4.4 修改存储路径
默认情况下,不同操作系统大模型存储的路径如下:
- macOS: ~/.ollama/models
- Linux: /usr/share/ollama/.ollama/models
- Windows: C:Users.ollamamodels
Linux平台安装Ollama时,默认安装时会创建用户ollama,再将模型文件存储到该用户的目录/usr/share/ollama/.ollama/models。但由于大模型文件往往特别大,有时需要将大模型文件存储到专门的数据盘,此时就需要修改大模型文件的存储路径。
官方提供的方法是设置环境变量“OLLAMA_MODELS”。
Linux 下创建如下配置文件,并配置环境变量 来指定存储路径,再重启 Ollama 服务。
如果不希望直接在终端中与大型语言模型交互,可以使用命令 ollama serve 启动本地服务器。一旦这个命令成功运行,你就可以通过REST API与本地语言模型进行交互。
Ollama has a REST API for running and managing models.
5.1 Generate a response
输出如下:
5.2 Chat with a model
输出如下:
See the API Documentation for all endpoints.
6.1 UI 工具
6.2 Open WebUI
OpenWebUI 是一个可扩展、功能丰富且用户友好的自托管 WebUI,它支持完全离线操作,并兼容 Ollama 和 OpenAI 的 API 。这为用户提供了一个可视化的界面,使得与大型语言模型的交互更加直观和便捷。
6.2.1 安装
官方文档:How To Install