
如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
该镜像基于 https://developer.nvidia.com/cuda-12-4-0-download-archive 构建,用于部署 https://github.com/vectorch-ai/ScaleLLM%E2%80%94%E2%80%94%E4%B8%80%E4%B8%AA%E9%92%88%E5%AF%B9%E5%A4%A7%E5%9E%8B%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B(LLM)%E7%9A%84%E9%AB%98%E6%80%A7%E8%83%BD%E6%8E%A8%E7%90%86%E7%B3%BB%E7%BB%9F%E3%80%82%E9%80%9A%E8%BF%87%E5%AE%B9%E5%99%A8%E5%8C%96%E9%83%A8%E7%BD%B2%EF%BC%8C%E5%8F%AF%E5%BF%AB%E9%80%9F%E6%90%AD%E5%BB%BA%E5%85%B7%E5%A4%87GPU%E5%8A%A0%E9%80%9F%E8%83%BD%E5%8A%9B%E7%9A%84LLM%E6%8E%A8%E7%90%86%E6%9C%8D%E5%8A%A1%EF%BC%8C%E6%BB%A1%E8%B6%B3%E7%94%9F%E4%BA%A7%E7%8E%AF%E5%A2%83%E4%B8%AD%E7%9A%84%E9%AB%98%E6%80%A7%E8%83%BD%E9%9C%80%E6%B1%82%E3%80%82
使用以下命令启动ScaleLLM容器:
bashdocker run -it --gpus=all --net=host \ -v $HOME/.cache/huggingface/hub:/models \ -e HF_MODEL_ID=TheBloke/Llama-2-7B-chat-AWQ \ -e DEVICE=cuda:0 \ docker.io/vectorchai/scalellm:latest --logtostderr
| 环境变量 | 描述 | 默认值 |
|---|---|---|
HF_MODEL_ID | 指定要加载的Hugging Face模型ID | 无(必需手动指定) |
HF_MODEL_REVISION | 指定模型版本 | "main" |
HF_MODEL_ALLOW_PATTERN | 指定允许下载的文件类型 | "*.json,*.safetensors,*.model" |
DEVICE | 指定模型运行设备(如"cuda:0"、"cpu") | "auto"(自动选择) |
HUGGING_FACE_HUB_TOKEN | Hugging Face访问令牌(用于访问gated模型) | 无(非必需,视模型要求而定) |
容器启动后会暴露以下端口:
8888端口(gRPC服务)
0.0.0.0:88889999端口(HTTP服务)
0.0.0.0:9999curl localhost:9999/healthcurl localhost:9999/metrics(Prometheus格式)curl localhost:9999/gflags(列出所有可用gflags配置)可通过命令行参数进一步调整服务行为(如--logtostderr启用标准错误输出日志),具体参数可参考https://github.com/vectorch-ai/ScaleLLM%E3%80%82
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。
来自真实用户的反馈,见证轩辕镜像的优质服务