NVIDIA Jetson 平台优化的大语言模型推理服务框架
收藏数: 4
下载次数: 55291
类型:

dustynv/vllm本镜像为 vLLM 项目针对 NVIDIA Jetson 平台的优化版本。vLLM 是一个高效的开源大语言模型(LLM)推理服务框架,通过创新的 PagedAttention 技术实现高吞吐量和低延迟的推理性能。本镜像由 dustynv/jetson-containers 项目构建,专门为 Jetson 边缘计算设备优化,支持在资源受限的嵌入式平台上运行大语言模型推理服务。更多项目细节可参考上游仓库:vllm-project/vllm。
推荐使用 jetson-containers 工具自动选择兼容的镜像版本:
bash# 自动选择兼容版本并运行 jetson-containers run $(autotag vllm) # 或指定具体版本 jetson-containers run dustynv/vllm:0.9.3-r36.4.0-cu128-24.04
如需手动运行,可使用以下命令:
bashsudo docker run --runtime nvidia -it --rm --network=host \ -v /path/to/models:/models \ -v /path/to/data:/data \ dustynv/vllm:0.9.3-r36.4.0-cu128-24.04 \ python -m vllm.entrypoints.openai.api_server \ --model mistralai/Mistral-7B-Instruct-v0.2 \ --port 8000
yamlversion: '3.8' services: vllm: image: dustynv/vllm:0.9.3-r36.4.0-cu128-24.04 container_name: vllm-server runtime: nvidia network_mode: host volumes: - ./models:/models - ./data:/data - ~/.cache/huggingface:/root/.cache/huggingface environment: - HUGGING_FACE_HUB_TOKEN=${HUGGING_FACE_HUB_TOKEN} command: > python -m vllm.entrypoints.openai.api_server --model mistralai/Mistral-7B-Instruct-v0.2 --port 8000 --host 0.0.0.0 restart: unless-stopped
vLLM 支持丰富的命令行参数,常用配置包括:
--model:指定模型路径或 Hugging Face 模型标识符--port:API 服务端口(默认 8000)--host:绑定地址(默认 0.0.0.0)--tensor-parallel-size:张量并行度(多 GPU 推理)--gpu-memory-utilization:GPU 内存利用率(0.0-1.0)--max-model-len:最大序列长度--quantization:量化方法(awq、gptq、squeezellm 等)--trust-remote-code:允许执行远程代码(某些模型需要)更多参数说明请参考 vLLM 官方文档。
本镜像提供多个版本标签,建议根据 Jetson 平台和 CUDA 版本选择:
0.9.3(latest):最新稳定版本,推荐使用0.9.2、0.9.0:较新版本0.8.x:稳定版本系列r36.4.0-cu128-24.04:针对 L4T R36.4.0、CUDA 12.8、Ubuntu 24.04 的特定构建以下是 dustynv/vllm 相关的常用 Docker 镜像,适用于 不同场景 等不同场景:
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 版本下载页面。





manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务