小红花·文摘

这篇文章介绍了一种名为“树注意力”的新型注意力机制，可以在多个GPU上并行运行，提高长文本推理的速度。树注意力的关键之处在于通信步数随设备数量成对数增长，而不是线性增长，因此随着设备数量增大，其优势更加明显。与之前的环注意力相比，树注意力不仅可以节省峰值内存占用，还能保持完整的注意力计算。树注意力的设计还充分利用了GPU集群的两级拓扑特点，进一步提高了性能。这项研究对于高推理需求的大型公司非常重要。