SPD:用于大语言模型高效张量并行的同步点滴落
📝
内容提要
本研究解决了大语言模型(LLMs)在多计算单元中进行高效分布式推理时面临的通信开销问题。提出的同步点滴落(SPD)技术通过选择性丢弃注意力输出的同步,减少了张量并行中的通信开销,取得了约20%的推理延迟减少且准确性下降不足1%的显著成果,为不同的分布式环境提供了可扩展的解决方案。
🏷️
标签
➡️