
rocm/k8s-device-plugin这是一个Kubernetes设备插件实现,用于在容器集群中注册AMD GPU以支持计算工作负载。在适当的硬件和Kubernetes集群中部署此插件后,您将能够运行需要AMD GPU的作业。
此插件是AMD GPU Operator等工具将AMD GPU公开为可调度资源所必需的。
有关ROCm的更多信息。
--allow-privileged=true标志),以便访问/dev/kfd设备插件需要在所有配备AMD GPU的节点上运行。最简单的方法是创建KubernetesDaemonSet,它在集群中的所有(或某些)节点上运行pod副本。我们在DockerHub上提供了预构建的Docker镜像,可用于DaemonSet。此仓库还包含名为k8s-ds-amdgpu-dp.yaml的预定义yaml文件。您可以通过运行以下命令在Kubernetes集群中创建DaemonSet:
bashkubectl create -f k8s-ds-amdgpu-dp.yaml
或直接从网络拉取:
bashkubectl create -f [***]
如果要启用实验性设备健康检查,请在为kube-apiserver设置--allow-privileged=true之后使用k8s-ds-amdgpu-dp-health.yaml。
如果要使用Helm部署此设备插件,Artifact Hub上提供了Helm Chart。
您可以通过向pod定义添加resources.limits来将工作负载限制在具有GPU的节点上。example/pod/alexnet-gpu.yaml中提供了示例pod定义。此pod在AMD GPU上运行AlexNet的计时基准测试,然后进入睡眠状态。您可以通过运行以下命令创建pod:
bashkubectl create -f alexnet-gpu.yaml
或
bashkubectl create -f [***]
然后通过运行以下命令检查pod状态:
bashkubectl describe pods
创建并运行pod后,可以通过运行以下命令查看基准测试结果:
bashkubectl logs alexnet-tf-gpu-pod alexnet-tf-gpu-container
作为比较,example/pod/alexnet-cpu.yaml中提供了使用CPU运行相同基准测试的示例pod定义。
详情请参见AMD GPU Kubernetes Node Labeller。示例配置在k8s-ds-amdgpu-labeller.yaml中:
bashkubectl create -f k8s-ds-amdgpu-labeller.yaml
或
bashkubectl create -f [***]
/var/lib/amd-metrics-exporter/上的grpc套接字服务的导出器健康服务,扩展每个GPU的更精细健康检测。go modules进行依赖管理Dockerfile/dev/kfd的健康检查。)





manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务