SPD:大语言模型高效张量并行的同步点丢弃技术

With the rapid expansion in the scale of large language models (LLMs), enabling efficient distributed inference across multiple computing units has become increasingly critical. However,...

AI生成摘要 随着大语言模型的快速发展,分布式推理中的通信开销成为主要挑战。我们提出了一种新技术Sync-Point Drop(SPD),通过选择性减少注意力输出的同步,降低通信开销。SPD在保持模型准确性的同时,有效缓解了通信瓶颈,实现了约20%的推理延迟减少,准确率下降不足1%。

SPD:大语言模型高效张量并行的同步点丢弃技术
原文英文,约200词,阅读约需1分钟。发表于:1 个月前
阅读原文