亚马逊AWS官方博客 ·

750B MoE 模型从自建 RoCE 集群迁移至 AWS EFA：Prefill-Decode 分离推理的通信架构验证

💡 原文中文，约26600字，阅读约需64分钟。

📝

内容提要

本文探讨了750B MoE模型从自建RoCE集群迁移至AWS EFA的过程，验证了Prefill-Decode分离推理的通信架构。客户希望利用AWS的弹性算力扩展本地GPU资源，降低硬件风险。通过理论分析和实际测试，比较了AWS EFA与自建RoCE集群的性能，发现EFA在复杂通信负载下表现良好，尽管在某些延迟指标上略逊一筹，但在尾延迟稳定性上有显著优势。整体来看，EFA已可替代RoCE，尤其在对尾延迟敏感的场景中表现出色。

🎯

关键要点

客户希望利用 AWS 弹性算力扩展本地 GPU 资源，降低硬件风险。
AWS EFA 在复杂通信负载下表现良好，尽管在某些延迟指标上略逊一筹，但在尾延迟稳定性上有显著优势。
Prefill-Decode 分离架构要求跨节点网络的性能，AWS EFA 能否达到 ConnectX 系列 + RoCE 的性能水平是关键问题。
通过理论分析和实际测试，发现 EFA 已可替代 RoCE，尤其在对尾延迟敏感的场景中表现出色。
EFA 的多路径设计在极端情况下表现更好，最大尾延迟比 RoCE 低 73%。

🔎

延伸解读

AWS EFA的优势与局限

AWS EFA在复杂通信负载下表现出色，尤其在尾延迟稳定性方面优于自建RoCE集群。然而，在某些延迟指标上，EFA的表现略逊一筹，特别是在Decode阶段的TPOT上，EFA的延迟较高。这表明，尽管EFA在大多数场景中可替代RoCE，但在对单次延迟极为敏感的应用中，仍需关注其性能瓶颈。

Prefill-Decode架构的通信需求

Prefill-Decode分离架构对跨节点网络的性能要求极高，尤其是在处理长文本时。Prefill阶段的计算密集型特性使得网络延迟不是瓶颈，而Decode阶段则需要频繁的跨节点通信，导致延迟敏感。因此，在设计和部署时，需特别关注网络拓扑和通信路径的优化，以确保整体性能。

多路径设计的影响

EFA的多路径设计在极端情况下表现优异，能够有效降低最大尾延迟。这种设计使得数据包能够在多条路径上分散传输，避免了单点拥塞带来的延迟问题。对于在线推理服务而言，稳定的尾延迟比单次延迟更为重要，因此EFA在这方面的优势可能会成为其在云计算领域的关键竞争力。

❓

延伸问答

750B MoE模型迁移至AWS EFA的主要目的是什么？

主要目的是利用AWS的弹性算力扩展本地GPU资源，降低硬件风险。

AWS EFA在复杂通信负载下的表现如何？

AWS EFA在复杂通信负载下表现良好，尽管在某些延迟指标上略逊一筹，但在尾延迟稳定性上有显著优势。

Prefill-Decode分离架构的优势是什么？

该架构允许对Prefill和Decode阶段进行独立优化，避免相互干扰，提高整体推理效率。

EFA与自建RoCE集群的性能比较结果如何？

EFA在尾延迟方面表现更好，最大尾延迟比RoCE低73%，但在TPOT上EFA高出31%。

在迁移过程中遇到的主要挑战是什么？

主要挑战是PD分离架构对跨节点网络性能的高要求，尤其是在复杂通信负载下。

EFA的多路径设计有什么优势？

EFA的多路径设计在极端情况下表现更好，能够实现负载均衡，避免单点拥塞。

🏷️