modular/max-nvidia-fullModular Accelerated eXecution (MAX) 提供了一个高性能、灵活的AI工作负载平台,利用现代GPU提供加速的生成式AI性能,同时保持在不同硬件配置和云提供商之间的可移植性。
max-nvidia-full 容器包含在GPU上高效运行大型AI模型所需的所有依赖项。它提供了一个完整的环境,支持PyTorch (GPU)、CUDA和cuDNN,确保深度学习工作负载的最佳性能。该容器非常适合需要完全优化、开箱即用的AI模型部署解决方案的用户。
MAX容器兼容OpenAI API规范,并针对GPU部署进行了优化。有关容器内容和实例兼容性的更多信息,请参阅MAX文档中的MAX容器部分。
使用以下命令在GPU上运行LLM:
bashdocker run \ --gpus 1 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ --env "HF_HUB_ENABLE_HF_TRANSFER=1" \ --env "HF_TOKEN=<secret>" \ -p 8000:8000 \ modular/max-nvidia-full:<version> \ --model-path <model-provider/model-id>
--gpus 1: 指定使用1个GPU设备-v ~/.cache/huggingface:/root/.cache/huggingface: 挂载Hugging Face缓存目录,避免重复下载模型--env "HF_HUB_ENABLE_HF_TRANSFER=1": 启用HF传输加速--env "HF_TOKEN=<secret>": 设置Hugging Face访问令牌(用于私有模型)-p 8000:8000: 将容器的8000端口映射到主机的8000端口modular/max-nvidia-full:<version>: 指定MAX容器镜像及版本--model-path <model-provider/model-id>: 指定要加载的模型路径运行MAX优化模型:
bashdocker run \ --gpus 1 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ --env "HF_HUB_ENABLE_HF_TRANSFER=1" \ --env "HF_TOKEN=your_token_here" \ -p 8000:8000 \ modular/max-nvidia-full:latest \ --model-path modularai/Llama-3.1-8B-Instruct-GGUF
运行其他Hugging Face模型:
bashdocker run \ --gpus 1 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ --env "HF_HUB_ENABLE_HF_TRANSFER=1" \ -p 8000:8000 \ modular/max-nvidia-full:latest \ --model-path Qwen/Qwen2.5-1.5B-Instruct
有关使用MAX快速部署流行模型的更多信息,请参见MAX Builds。
创建docker-compose.yml文件:
yamlversion: '3.8' services: max-nvidia-full: image: modular/max-nvidia-full:latest deploy: resources: reservations: devices: - driver: nvidia count: 1 capabilities: [gpu] volumes: - ~/.cache/huggingface:/root/.cache/huggingface environment: - HF_HUB_ENABLE_HF_TRANSFER=1 - HF_TOKEN=your_token_here ports: - "8000:8000" command: --model-path modularai/Llama-3.1-8B-Instruct-GGUF
使用以下命令启动服务:
bashdocker-compose up
支持的标签会更新到最新的MAX版本,包括最新的稳定版本和更多实验性的夜间版本。latest标签提供最新的稳定版本,nightly标签提供最新的夜间版本。
| 环境变量 | 描述 | 示例 |
|---|---|---|
| HF_HUB_ENABLE_HF_TRANSFER | 启用HF传输加速 | 1 |
| HF_TOKEN | Hugging Face访问令牌 | your_token_here |
如果有兴趣成为设计合作伙伴,以获得早期访问权限并提供反馈,请联系我们。
此容器根据NVIDIA深度学习容器许可证发布。


manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务