硕鼠的博客站 ·

遥遥领先的华为升腾384超节点VS英伟达NVL72：FP16算力压H100却逊GB200，三倍功耗换自主可控值不值？

💡 原文中文，约6600字，阅读约需16分钟。

📝

内容提要

华为的升腾384超节点在算力上部分超越英伟达的NVL72，但在稳定性和兼容性方面仍存在不足。该设备采用自主架构，支持大模型训练，但光模块故障率高，可能导致训练不稳定。整体来看，升腾384为国内算力中心提供了新选择，推动自主可控的信创产业发展。

🎯

🔎

华为升腾384超节点的推出，标志着国内在算力领域的自主可控进程取得了重要进展。面对国际技术封锁，自主研发的设备为国内算力中心提供了新的选择，推动了信创产业的发展。这一进展不仅有助于减少对外部技术的依赖，也为未来的技术创新奠定了基础。

尽管升腾384超节点在算力上有所突破，但其光模块的高故障率和散热问题仍然是一个显著的挑战。光模块的稳定性直接影响到训练的可靠性，可能导致训练任务中断。因此，在使用该设备时，用户需关注光模块的维护和管理，以确保系统的稳定运行。

华为的MindSpore框架虽然兼容70%-80%的CUDA指令，但完全迁移现有模型仍需时间和精力。对于习惯使用CUDA的开发者来说，转向升腾384超节点可能面临一定的学习曲线。因此，用户在选择设备时，应考虑到生态系统的兼容性和迁移成本，以避免不必要的开发延误。

❓

华为升腾384超节点在FP16算力上部分超越英伟达的NVL72，但在稳定性和兼容性方面仍存在不足。

升腾384超节点由16个标准19寸机柜组成，包含384个NPU和鲲鹏920 CPU，采用自主架构，支持大模型训练。

升腾384超节点的功率为559千瓦，整体耗电较高，散热需求也大，使用三倍于英伟达NVL72的电力。

MindSpore框架兼容70%-80%的CUDA指令，但仍需时间进行迁移，部分框架如PyTorch和TensorFlow也进行了兼容性适配。

升腾384超节点的光模块故障率高，发热严重，可能导致训练不稳定，运营维护成本较高。

升腾384超节点为国内算力中心提供了新选择，推动自主可控的信创产业发展，填补了市场空白。

🏷️