AIxiv专栏探讨了块状注意力机制(Block-Attention)在检索增强(RAG)中的应用。该机制通过独立编码文档,提高推理效率,减少延迟,微调后准确率接近自注意力模型。实验表明,Block-Attention在处理长文本时表现优异,显著提升效率。
本文介绍了一种名为 Block-State Transformer 的混合层,它在内部组合了用于长距离上下文建模的 SSM 子层和用于序列的短期表示的 Block Transformer 子层,并研究了三种完全可并行化的 SSM 和块状注意力的集成变体。该模型在语言模型困惑度上胜过类似的基于 Transformer 的架构,并可以推广到更长的序列。此外,Block-State Transformer 在模型并行化时的层级速度比 Block-Recurrent Transformer 快了十倍以上。
完成下面两步后,将自动完成登录并继续当前操作。