本研究提出了一种优化基础模型架构的方法,将神经网络重新概念化为关联记忆模块,并引入新的注意偏差和遗忘机制。实验结果表明,基于新框架Miras设计的序列模型在语言建模和常识推理任务中表现优异,超越了现有的线性循环神经网络和变换器。
本文通过将关联记忆的能量函数视为负对数似然函数,建立了其与概率建模的联系。提出了基于能量的模型及两种新的关联记忆模型,研究了高斯内核密度估计器的记忆容量和transformers中的自注意力聚类。
该研究提出了一种新的持续学习框架,结合了关联记忆和回放策略,使用稀疏内存编码归档数据片段,并引入面向内容的记忆检索机制。实验证明该方法在各种持续学习任务中有效。
完成下面两步后,将自动完成登录并继续当前操作。