本站支持搜索的镜像仓库:Docker Hub、gcr.io、ghcr.io、quay.io、k8s.gcr.io、registry.gcr.io、elastic.co、mcr.microsoft.com

vLLM TPU 镜像是基于 vLLM(高效大语言模型推理库)构建的 Docker 镜像,专为 Google TPU(张量处理单元)硬件环境优化,提供高性能的大语言模型推理服务。该镜像整合了 vLLM 的高效推理引擎与 TPU 硬件加速能力,旨在简化大语言模型在 TPU 集群或单机 TPU 设备上的部署流程,支持低延迟、高吞吐量的模型推理场景。
镜像可通过 Docker Hub 或私有仓库获取,默认标签为 latest(对应最新稳定版本):
docker pull vllm/tpu:latest
docker run 命令示例)在已配置 TPU 的环境中,通过以下命令启动基础推理服务(以 LLaMA-2-7B 模型为例):
docker run -it --rm \ --privileged \ --device=/dev/tpu \ # 挂载 TPU 设备 -e MODEL_PATH="meta-llama/Llama-2-7b-hf" \ # 模型路径(Hugging Face Hub 或本地路径) -e TPU_NUM_CORES=8 \ # TPU 核心数(根据硬件配置调整,如 v3-8 为 8 核) -p 8000:8000 \ # 端口映射(主机端口:容器端口) vllm/tpu:latest \ python -m vllm.entrypoints.api_server --host 0.0.0.0 --port 8000
若模型存储在主机本地路径(如 /data/models/llama-2-7b),通过 -v 挂载主机目录至容器:
docker run -it --rm \ --privileged \ --device=/dev/tpu \ -v /data/models:/models \ # 主机模型目录挂载至容器 /models -e MODEL_PATH="/models/llama-2-7b" \ # 容器内模型路径 -e TPU_NUM_CORES=8 \ -p 8000:8000 \ vllm/tpu:latest \ python -m vllm.entrypoints.api_server --host 0.0.0.0 --port 8000
| 环境变量名 | 说明 | 默认值 |
|---|---|---|
MODEL_PATH | 模型路径,支持 Hugging Face Hub ID(如 meta-llama/Llama-2-7b-hf)或容器内本地路径 | 无(必填) |
TPU_NUM_CORES | TPU 核心数,需与硬件配置匹配(如 TPU v3-8 填 8,v4-16 填 16) | 8 |
MAX_BATCH_SIZE | 动态批处理最大批次大小,影响吞吐量(值越大吞吐量越高,延迟可能增加) | 32 |
MAX_NUM_SEQUENCES | 并发序列数上限,控制内存占用 | 128 |
LOG_LEVEL | 日志级别(DEBUG/INFO/WARNING/ERROR) | INFO |
启动容器时,可通过命令行参数调整 vLLM 服务配置(完整参数见 vLLM 官方文档),常用参数:
| 参数 | 说明 |
|---|---|
--host | 服务绑定主机地址(容器内地址,通常设为 0.0.0.0 允许外部访问) |
--port | 服务监听端口(需与容器端口映射一致) |
--tensor-parallel-size | 模型并行度,建议设为 TPU 核心数(如 --tensor-parallel-size 8) |
--served-model-name | 服务模型名称(用于 API 标识) |
创建 docker-compose.yml 文件,简化多容器或固定配置部署:
version: '3.8' services: vllm-tpu-service: image: vllm/tpu:latest privileged: true devices: - /dev/tpu:/dev/tpu # 挂载 TPU 设备 volumes: - /data/models:/models # 本地模型目录挂载(可选) environment: - MODEL_PATH=/models/llama-2-7b # 容器内模型路径(本地挂载或 Hub ID) - TPU_NUM_CORES=8 - MAX_BATCH_SIZE=64 - LOG_LEVEL=INFO ports: - "8000:8000" # API 服务端口 - "8001:8001" # 监控指标端口(可选) command: > python -m vllm.entrypoints.api_server --host 0.0.0.0 --port 8000 --tensor-parallel-size 8 --served-model-name llama-2-7b
启动服务:
docker-compose up -d
--tensor-parallel-size 指定模型并行数,建议与 TPU_NUM_CORES 一致(如 TPU v4-32 设为 32)。--distributed-executor-backend tpu 启用分布式执行。-v /host/logs:/app/logs 挂载日志目录,并配置 --log-file /app/logs/vllm.log。--metrics-port 8001 暴露,可对接 Grafana 监控吞吐量、延迟等指标。--user 参数指定非 root 用户运行,避免权限风险。HUGGING_FACE_HUB_TOKEN 传入,用于私有模型下载。libtpu)和对应版本的 TensorFlow/JAX 依赖,镜像仅包含运行时环境,不包含底层驱动。--memory 参数),避免 OOM 错误(推荐预留模型大小 2 倍以上内存)。免费版仅支持 Docker Hub 加速,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。
免费版仅支持 docker.io;专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。
当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。
通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。
先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。
使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。
探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录方式配置轩辕镜像加速服务,包含7个详细步骤
在 Linux 系统上配置轩辕镜像源,支持主流发行版
在 Docker Desktop 中配置轩辕镜像加速,适用于桌面系统
在 Docker Compose 中使用轩辕镜像加速,支持容器编排
在 k8s 中配置 containerd 使用轩辕镜像加速
在宝塔面板中配置轩辕镜像加速,提升服务器管理效率
在 Synology 群晖NAS系统中配置轩辕镜像加速
在飞牛fnOS系统中配置轩辕镜像加速
在极空间NAS中配置轩辕镜像加速
在爱快ikuai系统中配置轩辕镜像加速
在绿联NAS系统中配置轩辕镜像加速
在威联通NAS系统中配置轩辕镜像加速
在 Podman 中配置轩辕镜像加速,支持多系统
配置轩辕镜像加速9大主流镜像仓库,包含详细配置步骤
无需登录即可使用轩辕镜像加速服务,更加便捷高效
需要其他帮助?请查看我们的 常见问题 或 官方QQ群: 13763429