---
title: Kubernetes GPU设备插件与资源调度治理
keywords:
- GPU Device Plugin
- NVIDIA
- 资源调度
- 拓扑
- NUMA
description: 部署 GPU 设备插件并在调度层治理资源分配与拓扑亲和,保障 AI 负载的性能与稳定。
categories:
- 文章资讯
- 技术教程
---
Kubernetes GPU设备插件与资源调度治理
概览
- 设备插件暴露 GPU 资源;通过资源请求/限制与亲和控制分配;考虑拓扑与 NUMA。
技术参数(已验证)
- 设备插件:NVIDIA Device Plugin 暴露
nvidia.com/gpu;支持 MIG 分片;在 DaemonSet 部署。 - 资源请求:为 Pod 设置
resources.requests/limits;避免超卖;按租户隔离。 - 拓扑亲和:结合
TopologyManager与nodeAffinity/podAntiAffinity;在多 GPU 节点优化内存与带宽。 - 驱动与容器:启用
nvidia-container-runtime;镜像与驱动匹配;记录兼容矩阵。 - 观测:记录 GPU 使用率/显存与温度;告警与自动调度。
实战清单
- 部署设备插件与监控;根据作业类型选择 MIG 与分片。
- 在调度层设置亲和与隔离;避免资源争用与抖动。
- 建立驱动/镜像台账与升级/回滚流程。

发表评论 取消回复