ghcr.io/kubeflow/training-v1/training-operator:v1-3f15cb8...

ghcr.io

ghcr.iolinux/amd64v1-3f15cb8大小: 77.07MB更新于 2025年8月22日

ghcr.io/kubeflow/training-v1/training-operator 是 Kubeflow 生态中用于管理机器学习训练任务的核心组件，当前版本为 v1，是面向生产环境的稳定版本。作为 Kubeflow 机器学习平台的关键部分，它主要负责协调和管理 Kubernetes 集群中的训练任务全生命周期，帮助用户简化分布式训练的部署与运维流程。该组件的核心功能是实现训练任务的自动化管理，覆盖从任务启动、资源分配、运行监控到故障恢复、任务停止的完整流程。它支持主流机器学习框架，包括 TensorFlow、PyTorch、MXNet、XGBoost 等，用户无需针对不同框架编写特定部署脚本，可通过统一的方式管理多框架训练任务。在技术实现上，它基于 Kubernetes 的 Operator 模式，通过自定义资源定义（CRD）扩展了 Kubernetes 的能力。用户只需编写 YAML 配置文件，声明训练任务的参数（如 worker 节点数量、参数服务器数量、算力资源需求、镜像版本等），training-operator 就能自动将配置转化为 Kubernetes 可执行的任务，协调 Pod、Service 等资源的创建与调度。例如，定义 PyTorchJob 类型的配置后，组件会自动启动对应数量的 worker 容器，并处理容器间的网络通信和数据同步。作为稳定版本（v1），它强化了生产环境所需的可靠性，支持训练任务的故障自动恢复——当某个 worker 节点故障时，组件会自动重启容器并恢复训练状态，避免任务中断导致的数据丢失。同时，它能与 Kubernetes 的原生功能深度集成，比如结合 HPA（水平自动扩缩容）根据训练负载动态调整资源，或通过 Namespace 实现多团队任务的隔离管理。在 Kubeflow 生态中，该组件与其他模块（如管道编排、模型服务、数据处理）协同工作，形成完整的机器学习工作流。例如，训练任务完成后，可直接将模型输出对接 Kubeflow Serving 组件进行部署，减少人工干预环节。无论是企业级机器学习平台搭建，还是研究团队的分布式训练需求，training-operator 都能通过标准化、自动化的任务管理能力，降低机器学习工程化的门槛，适合需要在 Kubernetes 集群中规模化运行训练任务的场景。

ghcr.io/kubeflow/training-v1/training-operator:v1-3f15cb8

拉取命令

专属域名未获取到

相关镜像

轩辕镜像配置手册

Docker 配置

登录仓库拉取

专属域名拉取

K8s Containerd

K3s

Dev Containers

Podman

Singularity/Apptainer

其他仓库配置

Harbor 镜像源配置

Portainer 镜像源配置

Nexus 镜像源配置

系统配置

Linux

Windows/Mac

MacOS OrbStack

Docker Compose

NAS 设备

群晖

飞牛

绿联

威联通

极空间

网络设备

爱快路由

宝塔面板

镜像拉取常见问题

使用与功能问题

配置了专属域名后，docker search 为什么会报错？

Docker Hub 上有的镜像，为什么在轩辕镜像网站搜不到？

机器不能直连外网时，怎么用 docker save / load 迁镜像？

docker pull 拉插件报错（plugin v1+json）怎么办？

WSL 里 Docker 拉镜像特别慢，怎么排查和优化？

轩辕镜像安全吗？如何用 digest 校验镜像没被篡改？

第一次用轩辕镜像拉 Docker 镜像，要怎么登录和配置？

错误码与失败问题

docker pull 提示 manifest unknown 怎么办？

docker pull 提示 no matching manifest 怎么办？

镜像已拉取完成，却提示 invalid tar header 或 failed to register layer 怎么办？

Docker pull 时 HTTPS / TLS 证书验证失败怎么办？

Docker pull 时 DNS 解析超时或连不上仓库怎么办？

Docker 拉取出现 410 Gone 怎么办？

出现 402 或「流量用尽」提示怎么办？

Docker 拉取提示 UNAUTHORIZED（401）怎么办？

遇到 429 Too Many Requests（请求太频繁）怎么办？

docker login 提示 Cannot autolaunch D-Bus，还算登录成功吗？

为什么会出现「单层超过 20GB」或 413，无法加速拉取？

账号 / 计费 / 权限

轩辕镜像免费版和专业版有什么区别？

轩辕镜像支持哪些 Docker 镜像仓库？

镜像拉取失败还会不会扣流量？

麒麟 V10 / 统信 UOS 提示 KYSEC 权限不够怎么办？

如何在轩辕镜像申请开具发票？

怎么修改轩辕镜像的网站登录和仓库登录密码？

如何注销轩辕镜像账户？要注意什么？

配置与原理类

写了 registry-mirrors，为什么还是走官方或仍然报错？

怎么用 docker tag 去掉镜像名里的轩辕域名前缀？

如何拉取指定 CPU 架构的镜像（如 ARM64、AMD64）？

用轩辕镜像拉镜像时快时慢，常见原因有哪些？

用户好评