这是一个Kubernetes设备插件实现,用于在容器集群中注册AMD GPU以支持计算工作负载。在适当的硬件和Kubernetes集群中部署此插件后,您将能够运行需要AMD GPU的作业。
此插件是AMD GPU Operator等工具将AMD GPU公开为可调度资源所必需的。
有关ROCm的更多信息。
--allow-privileged=true标志),以便访问/dev/kfd设备插件需要在所有配备AMD GPU的节点上运行。最简单的方法是创建KubernetesDaemonSet,它在集群中的所有(或某些)节点上运行pod副本。我们在DockerHub上提供了预构建的Docker镜像,可用于DaemonSet。此仓库还包含名为k8s-ds-amdgpu-dp.yaml的预定义yaml文件。您可以通过运行以下命令在Kubernetes集群中创建DaemonSet:
bashkubectl create -f k8s-ds-amdgpu-dp.yaml
或直接从网络拉取:
bashkubectl create -f [***]
如果要启用实验性设备健康检查,请在为kube-apiserver设置--allow-privileged=true之后使用k8s-ds-amdgpu-dp-health.yaml。
如果要使用Helm部署此设备插件,Artifact Hub上提供了Helm Chart。
您可以通过向pod定义添加resources.limits来将工作负载限制在具有GPU的节点上。example/pod/alexnet-gpu.yaml中提供了示例pod定义。此pod在AMD GPU上运行AlexNet的计时基准测试,然后进入睡眠状态。您可以通过运行以下命令创建pod:
bashkubectl create -f alexnet-gpu.yaml
或
bashkubectl create -f [***]
然后通过运行以下命令检查pod状态:
bashkubectl describe pods
创建并运行pod后,可以通过运行以下命令查看基准测试结果:
bashkubectl logs alexnet-tf-gpu-pod alexnet-tf-gpu-container
作为比较,example/pod/alexnet-cpu.yaml中提供了使用CPU运行相同基准测试的示例pod定义。
详情请参见AMD GPU Kubernetes Node Labeller。示例配置在k8s-ds-amdgpu-labeller.yaml中:
bashkubectl create -f k8s-ds-amdgpu-labeller.yaml
或
bashkubectl create -f [***]
/var/lib/amd-metrics-exporter/上的grpc套接字服务的导出器健康服务,扩展每个GPU的更精细健康检测。go modules进行依赖管理Dockerfile/dev/kfd的健康检查。)来自真实用户的反馈,见证轩辕镜像的优质服务
免费版仅支持 Docker Hub 加速,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。
免费版仅支持 docker.io;专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。
当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。
通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。
先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。
使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。
探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录认证访问私有仓库
在 Linux 系统配置镜像加速服务
在 Docker Desktop 配置镜像加速
Docker Compose 项目配置加速
Kubernetes 集群配置 Containerd
在宝塔面板一键配置镜像加速
Synology 群晖 NAS 配置加速
飞牛 fnOS 系统配置镜像加速
极空间 NAS 系统配置加速服务
爱快 iKuai 路由系统配置加速
绿联 NAS 系统配置镜像加速
QNAP 威联通 NAS 配置加速
Podman 容器引擎配置加速
HPC 科学计算容器配置加速
ghcr、Quay、nvcr 等镜像仓库
无需登录使用专属域名加速