
syntheticdreamlabs/vllmvLLM 是一个高性能的大型语言模型(LLM)服务库,基于 PagedAttention 高效注意力算法实现。该 Docker 镜像封装了 vLLM 的核心构建版本,提供便捷、可移植的部署方案,用于快速搭建高性能 LLM 推理服务。
主要用途:
bashdocker pull vllm/vllm:latest
bashdocker run --gpus all -p 8000:8000 vllm/vllm:latest \ --model ***/opt-13b \ --port 8000
创建 docker-compose.yml 文件:
yamlversion: '3' services: vllm: image: vllm/vllm:latest runtime: nvidia ports: - "8000:8000" environment: - MODEL_PATH=meta-llama/Llama-2-7b-chat-hf - PORT=8000 - MAX_BATCH_SIZE=32 volumes: - ./models:/models - ./cache:/root/.cache/huggingface/hub deploy: resources: reservations: devices: - driver: nvidia count: 1 capabilities: [gpu]
启动服务:
bashdocker-compose up -d
| 参数 | 描述 | 默认值 |
|---|---|---|
--model | 模型路径或 Hugging Face 模型 ID | 无 |
--port | 服务端口 | 8000 |
--host | 服务绑定地址 | 0.0.0.0 |
--tensor-parallel-size | 张量并行 GPU 数量 | 1 |
--max-batch-size | 最大批处理大小 | 16 |
--max-seq-len | 最大序列长度 | 2048 |
--gpu-memory-utilization | GPU 内存利用率目标 | 0.9 |
--quantization | 量化方式(如 "awq", "gptq", "bitsandbytes") | 无 |
--api-key | API 访问密钥 | 无 |
--served-model-name | 服务模型名称(用于 API) | 模型名称 |
| 环境变量 | 描述 | 默认值 |
|---|---|---|
MODEL_PATH | 模型路径或 ID | 无 |
PORT | 服务端口 | 8000 |
LOG_LEVEL | 日志级别(DEBUG/INFO/WARNING/ERROR) | INFO |
HUGGING_FACE_HUB_TOKEN | Hugging Face 访问令牌 | 无 |
bashdocker run --gpus all -p 8000:8000 vllm/vllm:latest \ --model TheBloke/Llama-2-7B-Chat-AWQ \ --quantization awq \ --port 8000
bashdocker run --gpus all -p 8000:8000 vllm/vllm:latest \ --model meta-llama/Llama-2-13b-chat-hf \ --tensor-parallel-size 2 \ --port 8000
bashdocker run --gpus all -p 8000:8000 \ -v /path/to/local/model:/models/local-model \ vllm/vllm:latest \ --model /models/local-model \ --port 8000
bashdocker run --gpus all -p 8000:8000 vllm/vllm:latest \ --model meta-llama/Llama-2-7b-chat-hf \ --port 8000 \ --api-key secret-key \ --served-model-name llama-2-7b-chat
bashcurl http://localhost:8000/generate \ -H "Content-Type: application/json" \ -d '{ "prompt": "Hello, my name is", "max_tokens": 128, "temperature": 0.7 }'
bashcurl http://localhost:8000/generate \ -H "Content-Type: application/json" \ -d '{ "prompt": "Write a story about AI.", "max_tokens": 200, "stream": true }'
vLLM 内置 Prometheus 指标,可通过 /metrics 端点访问:
http://localhost:8000/metrics
主要指标包括:
vllm_requests_total: 总请求数vllm_requests_success_total: 成功请求数vllm_requests_failed_total: 失败请求数vllm_batch_size: 当前批处理大小vllm_queue_length: 请求队列长度bashdocker logs -f <container_id>
内存不足错误
--gpu-memory-utilization 值--quantization)--max-batch-size模型下载失败
--hf-token <token>性能不佳
--max-batch-size--gpu-memory-utilization端口冲突
--port 参数-p 8001:8000



manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务