小红花·文摘

本研究提出了ATTENTION2D方法，旨在解决传统自注意力机制在处理长序列时的计算和内存成本问题。该方法通过查询与键/值维度的并行性，实现了高效的分布与并行化，实验结果显示训练和推理速度提升了5至9.4倍。