最新动态 🔥
更多动态
Kubeflow Trainer 是一个 Kubernetes 原生分布式 AI 平台,用于可扩展的大型语言模型(LLM)微调以及跨多种框架的 AI 模型训练,包括 PyTorch、MLX、HuggingFace、DeepSpeed、JAX、XGBoost 等。
Kubeflow Trainer 将 MPI 引入 Kubernetes,在高性能计算(HPC)集群上高效编排多节点、多 GPU 分布式作业。这实现了进程间的高吞吐量通信,使其成为需要 GPU 节点间超快速同步的大规模 AI 训练的理想选择。
Kubeflow Trainer 与云原生 AI 生态系统无缝集成,包括用于拓扑感知调度和多集群作业调度的Kueue,以及用于 AI 工作负载编排的https://github.com/kubernetes-sigs/jobset%E5%92%8Chttps://github.com/kubernetes-sigs/lws%E3%80%82
Kubeflow Trainer 提供分布式数据缓存,旨在通过零拷贝传输将大规模数据流式传输到 GPU 节点。这确保了内存高效的训练作业,同时最大化 GPU 利用率。
借助https://github.com/kubeflow/sdk%EF%BC%8CAI 从业者可以轻松开发和微调 LLM,同时利用 Kubeflow Trainer API:TrainJob 和 Runtimes。
查看以下 KubeCon + CloudNativeCon 演讲,了解 Kubeflow Trainer 的功能:
其他演讲:
请查看Kubeflow Trainer 官方文档以安装并开始使用 Kubeflow Trainer。
以下链接提供有关如何参与社区的信息:
#kubeflow-trainer Slack 频道。请参考贡献指南。
请参考变更日志。
Kubeflow Trainer 项目目前处于 alpha 状态,API 可能会发生变化。 如果您正在使用 Kubeflow Training Operator V1,请参考此迁移文档。
Kubeflow 社区将在https://github.com/kubeflow/trainer/tree/release-1.9%E7%BB%B4%E6%8A%A4 Training Operator V1 源代码。
您可以在这些指南中找到 Kubeflow Training Operator V1 的文档。
该项目最初是作为 TensorFlow 的分布式训练算子启动的,后来我们合并了其他 Kubeflow 训练算子的工作,为用户和开发人员提供统一且简化的体验。我们非常感谢所有提交问题或帮助解决问题、提问和回答问题以及参与启发性讨论的人。 我们还要感谢所有为原始算子做出贡献和维护的人。
探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录认证访问私有仓库
无需登录使用专属域名
Kubernetes 集群配置 Containerd
K3s 轻量级 Kubernetes 镜像加速
VS Code Dev Containers 配置
Podman 容器引擎配置
HPC 科学计算容器配置
ghcr、Quay、nvcr 等镜像仓库
Harbor Proxy Repository 对接专属域名
Portainer Registries 加速拉取
Nexus3 Docker Proxy 内网缓存
需要其他帮助?请查看我们的 常见问题Docker 镜像访问常见问题解答 或 提交工单
docker search 限制
站内搜不到镜像
离线 save/load
插件要用 plugin install
WSL 拉取慢
安全与 digest
新手拉取配置
镜像合规机制
不支持 push
manifest unknown
no matching manifest(架构)
invalid tar header(解压)
TLS 证书失败
DNS 超时
域名连通性排查
410 Gone 排查
402 与流量用尽
401 认证失败
429 限流
D-Bus 凭证提示
413 与超大单层
来自真实用户的反馈,见证轩辕镜像的优质服务