陈少文的博客 ·

Kubernetes 下开源的 GPU 虚拟化项目

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

NVIDIA 的 k8s-device-plugin 和 gpu-operator 用于管理 Kubernetes 中的 GPU 资源，支持 MIG、Time-Slicing 和 MPS 等多种分配方式。MIG 可将 GPU 划分为独立实例，Time-Slicing 允许多个虚拟设备共享物理 GPU。gpu-manager 和 HAMi 通过 vCUDA 技术实现 GPU 资源的细粒度划分与共享。

🎯

关键要点

NVIDIA 的 k8s-device-plugin 和 gpu-operator 用于管理 Kubernetes 中的 GPU 资源。
k8s-device-plugin 自动发现和注册 GPU 设备，支持多种 GPU 型号。
gpu-operator 提供驱动管理、容器运行集成、设备发现等 GPU 全生命周期管理功能。
MIG 技术允许将 GPU 划分为多个独立实例，每个实例的计算、显存、带宽相互独立。
Time-Slicing 允许将物理 GPU 切分为多个虚拟设备，存在资源竞争问题。
MPS 技术允许多个进程共享同一物理 GPU，提高 GPU 利用率，提供更好的资源隔离。
gpu-manager 采用 vCUDA 技术实现 GPU 资源的细粒度划分与共享。
HAMi 也采用 vCUDA 技术，支持 MIG、Time-Slicing，并能管理其他 AI 加速卡。

🏷️

继续阅读

Kubernetes的自我修复是如何工作的？通过破坏真实集群来理解自我修复
本文介绍了KubeLab，一个开源实验室，模拟七种故障以观察Kubernetes的自我修复能力。通过实际操作，用户将学习识别和处理生产环境中的故障模式。
技术速递｜构建双 Sidecar Pod：在 Kubernetes 上将 GitHub Copilot SDK 与 Skill Server 相结合
本文探讨了如何利用Kubernetes的Sidecar模式构建云原生AI博客生成智能体，通过将GitHub Copilot SDK和技能管理部署为Side...
文章：读-复制-更新（RCU）：无锁性能的秘密
RCU（读-复制-更新）通过消除读取路径中的锁开销，实现比传统锁高出十到三十倍的读取性能，适用于读多写少的场景。其三阶段模式允许读者无锁访问数据，写者则复...
如何使用GitHub安全实验室的开源AI驱动框架扫描安全漏洞
我们利用GitHub安全实验室的任务流代理，成功发现80多个开源项目中的高影响力安全漏洞，主要涉及授权绕过和信息泄露。新任务流提高了结果验证和报告发布的效...
Anthropic与OpenAI争夺最佳开源维护者
如果Anthropic项目招募到10,000名开发者，预计价值约1200万美元。对于刚融资300亿美元的公司而言，这笔费用不算高，但能获得维护者的支持，推...
我们的开源AI模型SpeciesNet如何助力野生动物保护
SpeciesNet是一个AI模型，能够自动识别近2500种动物，帮助生物学家和保护者快速分析相机捕捉的数据。自2019年起，该工具在多个国家的项目中应用...

Kubernetes 下开源的 GPU 虚拟化项目

内容提要

关键要点

标签

继续阅读