nvidia/gpu-feature-discoveryNVIDIA GPU Feature Discovery (GFD) 镜像为GPU特性发现工具,主要用于在Kubernetes环境中识别和暴露GPU设备的详细特性(如型号、内存、架构等),生成可用于调度的节点标签,辅助GPU资源的管理与分配。
重要迁移说明:自v0.6.0版本起,Docker Hub不再发布新镜像,所有版本需从NVIDIA NGC目录获取:nvcr.io/nvidia/gpu-feature-discovery。原Docker Hub镜像仅保留历史版本(v0.5.0及以下),且不再更新维护。
以下为Docker Hub上的历史版本标签(均为v0.5.0及以下,不再更新):
v0.5.0 (Dockerfile)v0.4.1 (Dockerfile)v0.4.0 (Dockerfile)v0.3.0 (Dockerfile)v0.2.2 (Dockerfile)v0.2.1 (Dockerfile)v0.2.0 (Dockerfile)v0.2.0-rc.1 (Dockerfile)v0.1.0, 1.0.0-beta.1 (Dockerfile)v0.0.0, 1.0.0-beta (Dockerfile)1.0.0-alpha (Dockerfile)nvidia.com/gpu.model=TeslaV100),用于Pod调度策略。从NVIDIA NGC目录拉取最新镜像:
bashdocker pull nvcr.io/nvidia/gpu-feature-discovery:latest
如需指定版本(如v0.6.0):
bashdocker pull nvcr.io/nvidia/gpu-feature-discovery:v0.6.0
注意:以下版本已不再更新,仅用于兼容性测试或历史环境。
拉取特定版本(如v0.5.0):
bashdocker pull nvidia/gpu-feature-discovery:v0.5.0
通常以DaemonSet形式部署在集群节点,示例配置(需根据实际环境调整):
yamlapiVersion: apps/v1 kind: DaemonSet metadata: name: gpu-feature-discovery namespace: kube-system spec: selector: matchLabels: app: gpu-feature-discovery template: metadata: labels: app: gpu-feature-discovery spec: tolerations: - effect: NoSchedule key: nvidia.com/gpu operator: Exists containers: - name: gpu-feature-discovery image: nvcr.io/nvidia/gpu-feature-discovery:latest # 使用NGC镜像 resources: limits: cpu: 50m memory: 50Mi requests: cpu: 50m memory: 50Mi volumeMounts: - name: output-dir mountPath: /etc/kubernetes/node-feature-discovery/features.d - name: device-dir mountPath: /dev/dri readOnly: true volumes: - name: output-dir hostPath: path: /etc/kubernetes/node-feature-discovery/features.d type: DirectoryOrCreate - name: device-dir hostPath: path: /dev/dri
通过环境变量或命令行参数配置GFD行为,常用参数包括:
--mig-strategy:MIG(多实例GPU)策略,可选single(仅识别主设备)或mixed(识别所有MIG设备)。--output:输出格式,默认生成节点标签。--sleep-interval:特性检测间隔时间(秒),默认300秒。详细参数可通过以下命令查看:
bashdocker run --rm nvcr.io/nvidia/gpu-feature-discovery:latest --help
manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务