轩辕镜像
轩辕镜像专业版
个人中心搜索镜像
交易
充值流量我的订单
工具
工单支持镜像收录Run 助手IP 归属地密码生成Npm 源Pip 源
帮助
常见问题我要吐槽
其他
关于我们网站地图

官方QQ群: 13763429

轩辕镜像
镜像详情
syntheticdreamlabs/vllm
官方博客使用教程热门镜像工单支持
本站面向开发者与科研用户,提供开源镜像的搜索和下载加速服务。
所有镜像均来源于原始开源仓库,本站不存储、不修改、不传播任何镜像内容。
轩辕镜像 - 国内开发者首选的专业 Docker 镜像下载加速服务平台 - 官方QQ群:13763429 👈点击免费获得技术支持。
本站面向开发者与科研用户,提供开源镜像的搜索和下载加速服务。所有镜像均来源于原始开源仓库,本站不存储、不修改、不传播任何镜像内容。

本站支持搜索的镜像仓库:Docker Hub、gcr.io、ghcr.io、quay.io、k8s.gcr.io、registry.gcr.io、elastic.co、mcr.microsoft.com

vllm Docker 镜像下载 - 轩辕镜像

vllm 镜像详细信息和使用指南

vllm 镜像标签列表和版本信息

vllm 镜像拉取命令和加速下载

vllm 镜像使用说明和配置指南

Docker 镜像加速服务 - 轩辕镜像平台

国内开发者首选的 Docker 镜像加速平台

极速拉取 Docker 镜像服务

相关 Docker 镜像推荐

热门 Docker 镜像下载

vllm
syntheticdreamlabs/vllm

vllm 镜像详细信息

vllm 镜像标签列表

vllm 镜像使用说明

vllm 镜像拉取命令

Docker 镜像加速服务

轩辕镜像平台优势

镜像下载指南

相关 Docker 镜像推荐

vLLM构建镜像用于构建高性能大语言模型服务环境,支持快速部署及推理性能优化。
0 次下载activesyntheticdreamlabs镜像
🚀轩辕镜像专业版更稳定💎一键安装 Docker 配置镜像源
中文简介版本下载
🚀轩辕镜像专业版更稳定💎一键安装 Docker 配置镜像源

vllm 镜像详细说明

vllm 使用指南

vllm 配置说明

vllm 官方文档

vLLM 镜像文档

1. 镜像概述和主要用途

vLLM 是一个高性能的大型语言模型(LLM)服务库,基于 PagedAttention 高效注意力算法实现。该 Docker 镜像封装了 vLLM 的核心构建版本,提供便捷、可移植的部署方案,用于快速搭建高性能 LLM 推理服务。

主要用途:

  • 部署高性能 LLM 推理服务
  • 构建基于 LLM 的应用程序后端
  • 进行 LLM 性能测试和基准测试
  • 开发和调试 LLM 相关应用

2. 核心功能和特性

性能优化

  • 基于 PagedAttention 技术,显著提高内存效率
  • 支持连续批处理(Continuous Batching),提升吞吐量
  • 优化的 KV 缓存管理,减少内存占用
  • 支持张量并行,可在多 GPU 上扩展

模型支持

  • 兼容 Hugging Face Transformers 模型格式
  • 支持多种开源 LLM,包括 Llama 系列、GPT-2、GPT-NeoX 等
  • 支持量化模型(INT4/INT8),降低资源需求
  • 支持自定义模型配置

服务能力

  • 提供 REST API 和 gRPC 接口
  • 支持流式输出(Streaming)响应
  • 兼容 OpenAI API 格式,易于集成
  • 内置 Prometheus 指标监控

3. 使用场景和适用范围

适用场景

  • 生产环境 LLM 服务部署
  • 开发和测试 LLM 应用程序
  • 构建 AI 助手、聊天机器人等对话系统
  • 文本生成、摘要、翻译等 NLP 任务
  • 学术研究和性能评估

硬件要求

  • 最低配置:单 GPU(8GB 显存)
  • 推荐配置:NVIDIA GPU(A10, A100, L4 等),16GB+ 显存
  • 支持多 GPU 部署,提升并发处理能力
  • 需安装 NVIDIA 容器工具包(nvidia-docker)

4. 使用方法和配置说明

基本使用

拉取镜像

docker pull vllm/vllm:latest

基本启动命令

docker run --gpus all -p 8000:8000 vllm/vllm:latest \
  --model ***/opt-13b \
  --port 8000

Docker Compose 部署

创建 docker-compose.yml 文件:

version: '3'
services:
  vllm:
    image: vllm/vllm:latest
    runtime: nvidia
    ports:
      - "8000:8000"
    environment:
      - MODEL_PATH=meta-llama/Llama-2-7b-chat-hf
      - PORT=8000
      - MAX_BATCH_SIZE=32
    volumes:
      - ./models:/models
      - ./cache:/root/.cache/huggingface/hub
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]

启动服务:

docker-compose up -d

关键配置参数

启动参数

参数描述默认值
--model模型路径或 Hugging Face 模型 ID无
--port服务端口8000
--host服务绑定地址0.0.0.0
--tensor-parallel-size张量并行 GPU 数量1
--max-batch-size最大批处理大小16
--max-seq-len最大序列长度2048
--gpu-memory-utilizationGPU 内存利用率目标0.9
--quantization量化方式(如 "awq", "gptq", "bitsandbytes")无
--api-keyAPI 访问密钥无
--served-model-name服务模型名称(用于 API)模型名称

环境变量

环境变量描述默认值
MODEL_PATH模型路径或 ID无
PORT服务端口8000
LOG_LEVEL日志级别(DEBUG/INFO/WARNING/ERROR)INFO
HUGGING_FACE_HUB_TOKENHugging Face 访问令牌无

高级用法示例

使用量化模型

docker run --gpus all -p 8000:8000 vllm/vllm:latest \
  --model TheBloke/Llama-2-7B-Chat-AWQ \
  --quantization awq \
  --port 8000

多 GPU 部署

docker run --gpus all -p 8000:8000 vllm/vllm:latest \
  --model meta-llama/Llama-2-13b-chat-hf \
  --tensor-parallel-size 2 \
  --port 8000

本地模型部署

docker run --gpus all -p 8000:8000 \
  -v /path/to/local/model:/models/local-model \
  vllm/vllm:latest \
  --model /models/local-model \
  --port 8000

启用 OpenAI 兼容 API

docker run --gpus all -p 8000:8000 vllm/vllm:latest \
  --model meta-llama/Llama-2-7b-chat-hf \
  --port 8000 \
  --api-key secret-key \
  --served-model-name llama-2-7b-chat

API 使用示例

文本生成请求

curl http://localhost:8000/generate \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "Hello, my name is",
    "max_tokens": 128,
    "temperature": 0.7
  }'

流式输出请求

curl http://localhost:8000/generate \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "Write a story about AI.",
    "max_tokens": 200,
    "stream": true
  }'

5. 监控和日志

访问指标

vLLM 内置 Prometheus 指标,可通过 /metrics 端点访问:

http://localhost:8000/metrics

主要指标包括:

  • vllm_requests_total: 总请求数
  • vllm_requests_success_total: 成功请求数
  • vllm_requests_failed_total: 失败请求数
  • vllm_batch_size: 当前批处理大小
  • vllm_queue_length: 请求队列长度

查看日志

docker logs -f <container_id>

6. 故障排除

常见问题解决

  1. 内存不足错误

    • 降低 --gpu-memory-utilization 值
    • 使用量化模型 (--quantization)
    • 减少 --max-batch-size
  2. 模型下载失败

    • 配置 Hugging Face 访问令牌: --hf-token <token>
    • 手动下载模型并挂载到容器
    • 检查网络连接
  3. 性能不佳

    • 增加 --max-batch-size
    • 调整 --gpu-memory-utilization
    • 确保使用支持的 GPU (计算能力 ≥ 7.0)
  4. 端口冲突

    • 更改 --port 参数
    • 映射到主机的不同端口: -p 8001:8000
查看更多 vllm 相关镜像 →
rocm/vllm logo
rocm/vllm
by AMD
认证
这是为AMD图形处理器(GPU)量身打造的、基于ROCm开源平台深度优化的vLLM Docker容器,其中vLLM作为高性能大语言模型服务库,可提供高效推理与服务能力,Docker容器则保障了部署的便捷性与环境一致性,整体方案旨在为AMD GPU用户提供兼顾性能与易用性的优化大语言模型运行环境。
1650K+ pulls
上次更新:18 天前
vllm/vllm-openai logo
vllm/vllm-openai
by vllm
暂无描述
1975M+ pulls
上次更新:21 小时前
vllm/vllm-tpu logo
vllm/vllm-tpu
by vllm
vLLM框架在TPU上运行的Docker镜像仓库
210K+ pulls
上次更新:22 小时前
opea/vllm logo
opea/vllm
by opea
基于VLLM项目的VLLM模型部署与服务镜像
110K+ pulls
上次更新:1 个月前

常见问题

轩辕镜像免费版与专业版有什么区别?

免费版仅支持 Docker Hub 加速,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。

轩辕镜像免费版与专业版有分别支持哪些镜像?

免费版仅支持 docker.io;专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。

流量耗尽错误提示

当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。

410 错误问题

通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。

manifest unknown 错误

先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。

镜像拉取成功后,如何去掉轩辕镜像域名前缀?

使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。

查看全部问题→

轩辕镜像下载加速使用手册

探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式

🔐

登录方式进行 Docker 镜像下载加速教程

通过 Docker 登录方式配置轩辕镜像加速服务,包含7个详细步骤

🐧

Linux Docker 镜像下载加速教程

在 Linux 系统上配置轩辕镜像源,支持主流发行版

🖥️

Windows/Mac Docker 镜像下载加速教程

在 Docker Desktop 中配置轩辕镜像加速,适用于桌面系统

📦

Docker Compose 镜像下载加速教程

在 Docker Compose 中使用轩辕镜像加速,支持容器编排

📋

K8s containerd 镜像下载加速教程

在 k8s 中配置 containerd 使用轩辕镜像加速

🔧

宝塔面板 Docker 镜像下载加速教程

在宝塔面板中配置轩辕镜像加速,提升服务器管理效率

💾

群晖 NAS Docker 镜像下载加速教程

在 Synology 群晖NAS系统中配置轩辕镜像加速

🐂

飞牛fnOS Docker 镜像下载加速教程

在飞牛fnOS系统中配置轩辕镜像加速

📱

极空间 NAS Docker 镜像下载加速教程

在极空间NAS中配置轩辕镜像加速

⚡

爱快路由 ikuai Docker 镜像下载加速教程

在爱快ikuai系统中配置轩辕镜像加速

🔗

绿联 NAS Docker 镜像下载加速教程

在绿联NAS系统中配置轩辕镜像加速

🌐

威联通 NAS Docker 镜像下载加速教程

在威联通NAS系统中配置轩辕镜像加速

📦

Podman Docker 镜像下载加速教程

在 Podman 中配置轩辕镜像加速,支持多系统

📚

ghcr、Quay、nvcr、k8s、gcr 等仓库下载镜像加速教程

配置轩辕镜像加速9大主流镜像仓库,包含详细配置步骤

🚀

专属域名方式进行 Docker 镜像下载加速教程

无需登录即可使用轩辕镜像加速服务,更加便捷高效

需要其他帮助?请查看我们的 常见问题 或 官方QQ群: 13763429

商务:17300950906
|©2024-2025 源码跳动
商务合作电话:17300950906|Copyright © 2024-2025 杭州源码跳动科技有限公司. All rights reserved.