针对ROCm优化的统一PyTorch基础训练容器。
PyTorch是一款开源机器学***框架,广泛用于模型训练,其GPU优化组件适用于基于Transformer的模型。
ROCm PyTorch训练Docker镜像rocm/pytorch-training:v25.5(可通过AMD Infinity Hub获取)提供预构建的优化环境,用于在AMD Instinct™ MI300X和MI325X加速器上进行模型微调与预训练。详细文档请参考ROCm文档页面:[***]
bashdocker pull rocm/pytorch-training:v25.5
以下命令展示如何运行容器进行Qwen2模型微调:
bashdocker run -it --rm \ --device=/dev/kfd \ --device=/dev/dri \ --group-add video \ --ipc=host \ -v /本地数据路径:/data \ -v /模型 checkpoint 路径:/checkpoints \ rocm/pytorch-training:v25.5 \ bash -c "cd /workspace && \ torchtune finetune --model qwen2-7b --data /data/train_data.json --checkpoint /checkpoints/qwen2-7b-base --output_dir /data/output"
说明:
--device:挂载ROCm设备以访问GPU--group-add video:添加视频组权限--ipc=host:使用主机IPC命名空间,避免共享内存限制-v:挂载本地数据和模型文件到容器内库更新:
增强FP8支持覆盖范围
新增Qwen模型微调支持
支持GPT-OSS模型微调
修复因PyTorch更新导致的SemiAnalysis模型问题
库更新:
开箱即用地全面支持上游pytorch/TorchTune
新增与最新Torchtune匹配的支持矩阵
为所有支持的模型和用法添加基准测试示例
新增统一的Torchtune_Tester.sh脚本,用于Torchtune微调基准测试
新增模型支持及基准测试示例:
开箱即支持Torchtitan:
由于ROCm 6.4运行时问题,仍使用ROCm 6.3.4,已确定解决方法,将在下一版本应用
上游Torchtune中Llama 3.2视觉模型LoRA微调存在已知问题
ROCm 6.3存在内存泄漏问题(将在ROCm 6.4中修复)
移除2024年12月使用的Semi Analysis模型的基准测试支持,因其实现不再支持PyTorch 2.8+
库更新:
全面支持TorchTune:
Torchtune打包输入设置下性能提升约38%
SPDA内存高效后端存在数值问题报告
ROCm 6.3存在内存泄漏问题(将在ROCm 6.4中修复)
来自真实用户的反馈,见证轩辕镜像的优质服务
免费版仅支持 Docker Hub 加速,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。
免费版仅支持 docker.io;专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。
当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。
通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。
先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。
使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。
探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录认证访问私有仓库
在 Linux 系统配置镜像加速服务
在 Docker Desktop 配置镜像加速
Docker Compose 项目配置加速
Kubernetes 集群配置 Containerd
在宝塔面板一键配置镜像加速
Synology 群晖 NAS 配置加速
飞牛 fnOS 系统配置镜像加速
极空间 NAS 系统配置加速服务
爱快 iKuai 路由系统配置加速
绿联 NAS 系统配置镜像加速
QNAP 威联通 NAS 配置加速
Podman 容器引擎配置加速
HPC 科学计算容器配置加速
ghcr、Quay、nvcr 等镜像仓库
无需登录使用专属域名加速
需要其他帮助?请查看我们的 常见问题 或 官方QQ群: 13763429