RWKV-X:一种线性复杂度的混合语言模型
📝
内容提要
本研究针对现有语言模型在处理长距离上下文时的复杂度问题,提出了名为RWKV-X的混合架构。该模型结合了RWKV在短距离建模的高效性和稀疏注意力机制,从而在训练时实现线性时间复杂度,并在推理解码时达到恒定时间复杂度。RWKV-X的实验结果显示其在64K令牌检索基准测试中接近完美准确度,并在长上下文基准上持续超越之前的RWKV-7模型,为通用语言建模提供了高效的基础架构。
🏷️
标签
➡️