
如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
本镜像提供一个分布式训练框架,专为TensorFlow、Keras、PyTorch和MXNet等主流深度学习框架设计。它旨在解决大规模模型训练中计算资源不足的问题,通过分布式架构实现多节点、多GPU协同训练,提升训练效率和模型扩展性。
bash# 单节点启动(示例:使用PyTorch框架,本地模式) docker run -it --name dist-train \ -e FRAMEWORK=pytorch \ -e TRAIN_MODE=local \ -v /path/to/training/code:/app/code \ -v /path/to/dataset:/app/data \ distributed-training-framework # 多节点启动(示例:2节点TensorFlow分布式训练) # 节点1(主节点) docker run -it --name dist-train-node1 \ -e FRAMEWORK=tensorflow \ -e TRAIN_MODE=distributed \ -e ROLE=master \ -e NUM_NODES=2 \ -e MASTER_ADDR=192.168.1.100 \ -e MASTER_PORT=29500 \ -p 29500:29500 \ -v /path/to/training/code:/app/code \ -v /path/to/dataset:/app/data \ distributed-training-framework # 节点2(工作节点) docker run -it --name dist-train-node2 \ -e FRAMEWORK=tensorflow \ -e TRAIN_MODE=distributed \ -e ROLE=worker \ -e NUM_NODES=2 \ -e MASTER_ADDR=192.168.1.100 \ -e MASTER_PORT=29500 \ -v /path/to/training/code:/app/code \ -v /path/to/dataset:/app/data \ distributed-training-framework
| 环境变量 | 说明 | 可选值 | 默认值 |
|---|---|---|---|
FRAMEWORK | 指定深度学习框架 | tensorflow/keras/pytorch/mxnet | pytorch |
TRAIN_MODE | 训练模式 | local(本地单节点)/distributed(分布式) | local |
ROLE | 节点角色(分布式模式下) | master(主节点)/worker(工作节点) | - |
NUM_NODES | 分布式节点总数 | 正整数 | 1 |
MASTER_ADDR | 主节点IP地址(分布式模式下) | IP地址 | - |
MASTER_PORT | 主节点通信端口(分布式模式下) | 1024-65535 | 29500 |
PARALLEL_MODE | 并行模式 | data_parallel/model_parallel/hybrid | data_parallel |
SYNC_MODE | 梯度同步模式 | sync(同步)/async(异步) | sync |
yamlversion: '3' services: master: image: distributed-training-framework container_name: dist-train-master environment: - FRAMEWORK=pytorch - TRAIN_MODE=distributed - ROLE=master - NUM_NODES=2 - MASTER_ADDR=master - MASTER_PORT=29500 - PARALLEL_MODE=data_parallel volumes: - ./training_code:/app/code - ./dataset:/app/data ports: - "29500:29500" worker: image: distributed-training-framework container_name: dist-train-worker environment: - FRAMEWORK=pytorch - TRAIN_MODE=distributed - ROLE=worker - NUM_NODES=2 - MASTER_ADDR=master - MASTER_PORT=29500 - PARALLEL_MODE=data_parallel volumes: - ./training_code:/app/code - ./dataset:/app/data depends_on: - master
/app/code目录torch.distributed.init_process_group(backend="nccl")tf.distribute.MultiWorkerMirroredStrategy()/app/code/train.py作为训练入口脚本(可通过ENTRYPOINT环境变量自定义入口)您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。

来自真实用户的反馈,见证轩辕镜像的优质服务