dotNET跨平台 ·

【原理解析】HAMi × 沐曦 MetaX | sGPU 共享、三档 QoS、拓扑智能调度与 WebUI 全面适配

💡 原文中文，约10000字，阅读约需24分钟。

📝

内容提要

密瓜智能与沐曦团队合作推出HAMi v2.7.0版本，提供统一调度方案，提升AI训练资源利用率。新功能包括sGPU共享、拓扑智能调度和QoS策略，支持多任务高效执行，推动国产AI算力发展。

🎯

🔎

sGPU共享功能允许多个容器任务共享同一物理GPU卡，通过精确限制显存和计算核心比例，实现资源的高效利用。这一特性特别适合需要高并发处理的AI训练场景，能够显著提升资源利用率，降低硬件成本。

HAMi v2.7.0引入的三档QoS策略（BestEffort、FixedShare、BurstShare）为不同业务需求提供了灵活的资源管理方案。用户可以根据任务的特性选择合适的QoS模式，从而在保证性能的同时，优化资源分配，提升整体系统效率。

拓扑智能调度功能通过动态感知GPU间的连接拓扑，优化多卡任务的通信带宽。这种技术能够在单机多卡的环境中，优先选择带宽最高的GPU组合，显著提升训练性能，尤其在大规模AI模型训练中具有重要意义。

❓

HAMi v2.7.0版本提供了sGPU共享、拓扑智能调度和QoS策略，旨在提升AI训练资源利用率和任务执行效率。

sGPU共享允许多个容器任务共享同一物理GPU卡，并通过限制每个任务的显存和计算核心比例来实现资源隔离。

拓扑智能调度能够动态感知GPU间的连接拓扑，优化多卡任务的通信带宽，从而提升训练性能。

HAMi的QoS策略包括BestEffort（尽力而为）、FixedShare（固定份额）和BurstShare（突发份额），以满足不同业务需求。

HAMi提供设备健康状态检查，并在HAMi-WebUI中展示异构指标，增强资源使用的可视化。

HAMi与沐曦团队的合作为国产AI生态发展注入新活力，树立了开源项目与硬件厂商协同创新的典范。

🏷️