
如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
预构建Docker镜像,用于在NVIDIA DGX Spark双节点集群上运行**DeepSeek V4 Flash(280B参数,FP4+FP8精度)**模型。
bash# 拉取镜像 docker pull lmxxf/vllm-deepseek-v4-dgx-spark:latest # 下载模型权重 export HF_ENDPOINT=https://hf-mirror.com # 中国镜像,可选 huggingface-cli download deepseek-ai/DeepSeek-V4-Flash --local-dir ./deepseek-v4-flash # 使用eugr的launch-cluster.sh启动 git clone https://github.com/eugr/spark-vllm-docker.git cd spark-vllm-docker HF_HOME=/path/to/weights/parent \ ./launch-cluster.sh -t lmxxf/vllm-deepseek-v4-dgx-spark exec \ vllm serve /root/.cache/huggingface/deepseek-v4-flash \ --tensor-parallel-size 2 \ --distributed-executor-backend ray \ --gpu-memory-utilization 0.85 \ --kv-cache-dtype fp8 \ --max-model-len 1000000 \ --enforce-eager # 测试 curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{"model":"/root/.cache/huggingface/deepseek-v4-flash","messages":[{"role":"user","content":"Hello"}],"max_tokens":100}'
完整构建说明和故障排除指南参见https://github.com/lmxxf/deepseek-v4-deployment-on-dgx-spark%E3%80%82
| 组件 | 作用 |
|---|---|
| vLLM 0.1.dev (jasl分支) | 带SM120 Triton回退的推理引擎 |
| Ray | 跨2节点的分布式执行器 |
| NCCL | 通过RoCE的GPU间通信 |
| FlashInfer | 优化的注意力内核 |
| TileLang | 超连接内核替换 |
--enforce-eager参数(torch.compile尚未兼容)您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。
来自真实用户的反馈,见证轩辕镜像的优质服务