本站支持搜索的镜像仓库:Docker Hub、gcr.io、ghcr.io、quay.io、k8s.gcr.io、registry.gcr.io、elastic.co、mcr.microsoft.com

vLLM 是一个高性能的大型语言模型(LLM)服务库,基于 PagedAttention 高效注意力算法实现。该 Docker 镜像封装了 vLLM 的核心构建版本,提供便捷、可移植的部署方案,用于快速搭建高性能 LLM 推理服务。
主要用途:
docker pull vllm/vllm:latest
docker run --gpus all -p 8000:8000 vllm/vllm:latest \ --model ***/opt-13b \ --port 8000
创建 docker-compose.yml 文件:
version: '3' services: vllm: image: vllm/vllm:latest runtime: nvidia ports: - "8000:8000" environment: - MODEL_PATH=meta-llama/Llama-2-7b-chat-hf - PORT=8000 - MAX_BATCH_SIZE=32 volumes: - ./models:/models - ./cache:/root/.cache/huggingface/hub deploy: resources: reservations: devices: - driver: nvidia count: 1 capabilities: [gpu]
启动服务:
docker-compose up -d
| 参数 | 描述 | 默认值 |
|---|---|---|
--model | 模型路径或 Hugging Face 模型 ID | 无 |
--port | 服务端口 | 8000 |
--host | 服务绑定地址 | 0.0.0.0 |
--tensor-parallel-size | 张量并行 GPU 数量 | 1 |
--max-batch-size | 最大批处理大小 | 16 |
--max-seq-len | 最大序列长度 | 2048 |
--gpu-memory-utilization | GPU 内存利用率目标 | 0.9 |
--quantization | 量化方式(如 "awq", "gptq", "bitsandbytes") | 无 |
--api-key | API 访问密钥 | 无 |
--served-model-name | 服务模型名称(用于 API) | 模型名称 |
| 环境变量 | 描述 | 默认值 |
|---|---|---|
MODEL_PATH | 模型路径或 ID | 无 |
PORT | 服务端口 | 8000 |
LOG_LEVEL | 日志级别(DEBUG/INFO/WARNING/ERROR) | INFO |
HUGGING_FACE_HUB_TOKEN | Hugging Face 访问令牌 | 无 |
docker run --gpus all -p 8000:8000 vllm/vllm:latest \ --model TheBloke/Llama-2-7B-Chat-AWQ \ --quantization awq \ --port 8000
docker run --gpus all -p 8000:8000 vllm/vllm:latest \ --model meta-llama/Llama-2-13b-chat-hf \ --tensor-parallel-size 2 \ --port 8000
docker run --gpus all -p 8000:8000 \ -v /path/to/local/model:/models/local-model \ vllm/vllm:latest \ --model /models/local-model \ --port 8000
docker run --gpus all -p 8000:8000 vllm/vllm:latest \ --model meta-llama/Llama-2-7b-chat-hf \ --port 8000 \ --api-key secret-key \ --served-model-name llama-2-7b-chat
curl http://localhost:8000/generate \ -H "Content-Type: application/json" \ -d '{ "prompt": "Hello, my name is", "max_tokens": 128, "temperature": 0.7 }'
curl http://localhost:8000/generate \ -H "Content-Type: application/json" \ -d '{ "prompt": "Write a story about AI.", "max_tokens": 200, "stream": true }'
vLLM 内置 Prometheus 指标,可通过 /metrics 端点访问:
http://localhost:8000/metrics
主要指标包括:
vllm_requests_total: 总请求数vllm_requests_success_total: 成功请求数vllm_requests_failed_total: 失败请求数vllm_batch_size: 当前批处理大小vllm_queue_length: 请求队列长度docker logs -f <container_id>
内存不足错误
--gpu-memory-utilization 值--quantization)--max-batch-size模型下载失败
--hf-token <token>性能不佳
--max-batch-size--gpu-memory-utilization端口冲突
--port 参数-p 8001:8000


免费版仅支持 Docker Hub 加速,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。
免费版仅支持 docker.io;专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。
当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。
通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。
先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。
使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。
探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录方式配置轩辕镜像加速服务,包含7个详细步骤
在 Linux 系统上配置轩辕镜像源,支持主流发行版
在 Docker Desktop 中配置轩辕镜像加速,适用于桌面系统
在 Docker Compose 中使用轩辕镜像加速,支持容器编排
在 k8s 中配置 containerd 使用轩辕镜像加速
在宝塔面板中配置轩辕镜像加速,提升服务器管理效率
在 Synology 群晖NAS系统中配置轩辕镜像加速
在飞牛fnOS系统中配置轩辕镜像加速
在极空间NAS中配置轩辕镜像加速
在爱快ikuai系统中配置轩辕镜像加速
在绿联NAS系统中配置轩辕镜像加速
在威联通NAS系统中配置轩辕镜像加速
在 Podman 中配置轩辕镜像加速,支持多系统
配置轩辕镜像加速9大主流镜像仓库,包含详细配置步骤
无需登录即可使用轩辕镜像加速服务,更加便捷高效
需要其他帮助?请查看我们的 常见问题 或 官方QQ群: 13763429