intel/intel-xpumanager-sidecarIntel GPU可通过XeLink互连。在部分工作负载中,使用XeLink互连的GPU可获得最佳性能。XeLink信息由Intel XPU Manager通过其指标API提供。XeLink sidecar从XPU Manager获取该信息,并将其作为特征标签文件存储在节点的/etc/kubernetes/node-feature-discovery/features.d/路径下。NFD读取此文件并将其转换为Kubernetes节点标签。这些标签随后被GAS用于Pod调度决策。
| 标志 | 参数 | 默认值 | 含义 |
|---|---|---|---|
| -lane-count | int | 4 | 接受的XeLink互连的最小通道数 |
| -interval | int | 10 | XeLink拓扑获取和标签写入的间隔时间(秒,≥1) |
| -startup-delay | int | 10 | 首次拓扑获取前的启动延迟(秒,≥0) |
| -label-namespace | string | gpu.intel.com | 标签的命名空间或前缀,例如 gpu.intel.com/xe-links |
sidecar还接受其他参数,使用-h选项可查看完整列表。
以下部分详细说明如何获取、部署和测试XPU-Manager XeLink sidecar。
预构建镜像可在Docker Hub获取。这些镜像从本仓库最新的main分支自动构建并上传。
组件的发布标签镜像也可在Docker Hub获取,标签格式为x.y.z,对应仓库中的分支和发布版本。
注意:将<RELEASE_VERSION>替换为所需的发布标签,或使用main获取devel镜像。
如需部署自定义版本的插件,请参见开发指南。
安装带有XeLink sidecar的XPU-Manager守护进程集:
bash$ kubectl apply -k '[***]<RELEASE_VERSION>'
有关安装的更多信息,请参见XPU-Manager Kubernetes文件安装说明。
使用补丁将sidecar添加到XPU-Manager守护进程集:
bash$ kubectl patch daemonsets.apps intel-xpumanager --patch-file '[***]<RELEASE_VERSION>'
注意:sidecar补丁会移除XPU-Manager容器中的其他资源。例如,若您的XPU-Manager守护进程集使用了smarter设备管理器资源,这些资源将被移除。
可通过检查节点的xe-links标签验证sidecar功能:
bash$ kubectl get nodes -A -o=jsonpath="{range .items[*]}{.metadata.name},{.metadata.labels.gpu\.intel\.com\/xe-links}{'\n'}{end}" master,0.0-1.0_0.1-1.1
manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务