aneasystone's blog ·

在 Kubernetes 中调度 GPU 资源

💡 原文中文，约16800字，阅读约需40分钟。

📝

内容提要

本文介绍了在Kubernetes中调度和使用GPU资源的方法，包括准备GPU环境、在Docker容器中使用GPU资源以及在Kubernetes集群中调度GPU资源。通过这些方法，用户可以充分利用GPU资源进行深度学习等任务。

🎯

🏷️

构建大规模 AI 基础设施的 Kubernetes 原生模式
Flex Nodes 允许多个云或区域的 GPU 节点加入同一 Kubernetes 集群，通过内部调度和可用容量分配，提高资源利用率，简化 GPU 管理。
介绍AI Runtime：在Databricks上可扩展的无服务器NVIDIA GPU用于训练和微调
我们很高兴宣布AI Runtime（AIR）公共预览版上线。AIR支持A10和H100的按需分布式GPU训练，已被多家客户用于深度学习模型的训练和生产，应...
政策即代码：使用Kyverno实现灵活的Kubernetes治理
Kubernetes改变了企业工作负载管理，Kyverno作为原生政策引擎，简化了政策管理，支持YAML，提供自动化治理解决方案，增强安全性与合规性。
大模型并发场景GPU显存资源计算
博客自2016年成立以来，经历多次功能更新，包括接入CDN、添加音乐墙和动态说说，预计在2026年引入文章AI标记。
基于 Amazon EKS 和 Graviton 构建多租户 AI Agent 平台：OpenClaw on Kubernetes 实践
随着生成式 AI 的普及，企业需要提供 AI Agent 服务。本文探讨如何在安全隔离的环境下，利用 Amazon EKS 和 Kubernetes Op...
Sky Media通过DV360向程序化购买开放了优质视频点播资源
天空传媒通过Google DV360扩展视频点播广告资源，广告商可访问其平台及合作伙伴的广告。这一举措结合了电视与数字交易，提供实时报告和灵活性，以适应用...