本文介绍了一种基于层次记忆的预训练方法,旨在提升小型语言模型的性能。该方法通过访问大型记忆库,有效存储和提取长尾知识,同时保持常识理解。实验结果表明,使用这种记忆增强架构的小模型在性能上可与参数更多的常规模型相媲美,并在资源受限的设备上表现优异。
完成下面两步后,将自动完成登录并继续当前操作。