本研究针对递归神经网络(RNN)无法随机访问历史上下文的问题,提出了一种名为层次稀疏注意力(HSA)的新型机制,旨在在保持高效性的同时增强长范围随机访问能力。研究表明,将HSA与Mamba结合形成的RAMba能够在64百万上下文中实现完美的密码检索准确率,展示了其在长上下文建模方面的巨大潜力。
本研究提出了一种层次稀疏注意力(HSA)机制,以解决递归神经网络(RNN)在随机访问历史上下文时的问题。结合Mamba形成的RAMba在6400万上下文中实现了完美的密码检索准确率,展示了长上下文建模的潜力。