围绕 Ollama 生态的容器镜像集合,覆盖官方 Ollama 镜像以及针对不同硬件平台(NVIDIA GPU、Jetson、Intel GPU、Ampere CPU、摩尔线程 GPU 等)的优化版本,适合在本地或自托管环境中部署大语言模型服务。 https://ollama.com
使用官方通用镜像或预下载模型镜像,在个人电脑、开发服务器或内网环境中部署大语言模型服务,为内部应用提供低延迟、高隐私的推理接口。
在同一架构下同时支持 Jetson 边缘设备、Ampere CPU 云主机、Intel GPU 服务器、摩尔线程 GPU 服务器等多种硬件,通过不同 Ollama 镜像实现“同一 API,差异化加速”。
在本地利用 Ollama 镜像快速拉起环境,评估不同模型、不同硬件平台下的响应延迟、吞吐与显存占用,为后续生产部署做容量规划与选型参考。
将 Ollama 暴露的 OpenAI 兼容 API 接入 Open WebUI、Libre WebUI、Dify 等上层平台,实现聊天界面、RAG 工作流与 Agent 系统的自托管大模型后端。
以官方镜像 ollama/ollama 为例,最常见的启动方式是映射 11434 端口并挂载模型数据目录,例如:docker run -d -p 11434:11434 -v ollama:/root/.ollama --name ollama ollama/ollama。运行后即可通过 HTTP 接口访问,如 POST http://localhost:11434/api/chat 或 /api/generate;进入容器后也可以使用 ollama run llama3 等命令与模型交互。
Ollama 默认会在容器内的 /root/.ollama 目录下存储模型与配置。为了避免容器删除后模型需要重新下载,建议将该目录挂载为本地卷或宿主机目录,例如:docker run -d -p 11434:11434 -v /data/ollama:/root/.ollama --name ollama ollama/ollama。对于社区维护的变体镜像,如 dimaskiddo/ollama-debian、eisai/ollama 等,它们的文档中也会明确模型或数据挂载目录,按照各自说明挂载即可实现持久化。
无论是 Jetson 专用镜像 noahaon/ollama、Ampere 优化镜像 amperecomputingai/ollama,还是 Intel GPU 镜像 uberchuckie/ollama-intel-gpu、摩尔线程 GPU 镜像 mthreads/ollama,它们的共同点都是:1)宿主机需要预先安装对应厂商的驱动和容器工具包(如 NVIDIA Container Toolkit、Ampere 相关依赖、Intel GPU 驱动、MUSA 环境等);2)启动容器时通常需要按照镜像文档提供的 docker run / docker compose 示例添加设备映射与环境变量;3)容器对外仍然通过 11434 端口或文档指定端口提供 Ollama API,因此上层调用与官方镜像保持一致。
新版本的 Ollama 在 /v1/chat/completions 等路径上提供了与 OpenAI 兼容的接口,大多数围绕 Ollama 的镜像(包括官方镜像与硬件优化版)都会保留这一行为。你可以在应用或 Web UI 中将 "OpenAI" 类型的 Endpoint 指向 http://<主机>:11434,并将模型名称改为如 llama3、qwen 等在 Ollama 内实际存在的模型名称,这样无需改动业务代码即可切换到本地 Ollama 服务。对于仅暴露原始 /api/chat 接口的旧版本或定制镜像,则需要按照其 README 中的 API 说明进行对接。
以 eisai/ollama 镜像为例,该镜像针对 Windows(包含 Windows Server 2022 等版本)做了兼容性适配,可在无需 Hyper-V 和 CUDA 工具包的前提下运行。但需要注意:1)应按照镜像文档说明使用 Windows 容器模式与合适的隔离方式(如 isolation: process);2)提前创建挂载目录用于存放模型;3)若需要 GPU 加速,需要参考文档中关于固定 GUID 设备传递或 GPU 直通的配置示例;4)与 Linux 环境不同,部分 Linux 专用工具链或 driver 容器在 Windows 上不可直接复用,需要严格按镜像 README 的步骤部署。